Automatizacion de Tareas en El Web

May 16, 2018 | Author: Ozkar Albert | Category: World Wide Web, Technology, Web Browser, Software, Server (Computing)

Share Embed Donate

Report this link

Short Description

Download Automatizacion de Tareas en El Web...

Description

UNIVERSIDAD CARLOS III DE MADRID

Departamento de Ingenier´ıa Telemática Doctorado en Tecnolog´ıas de las Comunicaciones

TESIS DOCTORAL

´ DE TAREAS AUTOMATIZACION EN EL WEB: UNA PROPUESTA BASADA EN ´ ESTANDARES

Autor: Vicente Luque Centeno Licenciado en Informática

Directores: Carlos Delgado Kloos y Luis S´ anchez Fern´ andez Doctores Ingenieros de Telecomunicación

Tribunal nombrado por el Mgfco. y Excmo. Sr. Rector de la Universidad Carlos III de Madrid, el d´ıa de de .

Presidente D. Vocal D. Vocal D. Vocal D. Secretario D.

Realizado el acto de defensa y lectura de la Tesis el d´ıa de en .

de

Calificación:

EL PRESIDENTE

EL SECRETARIO

LOS VOCALES

Índice general

1. Planteamiento y objetivos

7

1.1. Diferencias entre navegación manual y automática . . . . . . .

9

1.1.1. Esfuerzo . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.1.2. Propensión a errores . . . . . . . . . . . . . . . . . . . 11 1.1.3. Tiempo de respuesta . . . . . . . . . . . . . . . . . . . 11 1.1.4. Requisitos hardware y software . . . . . . . . . . . . . 11 1.1.5. Adecuación de repositorios . . . . . . . . . . . . . . . . 12 1.1.6. Procesamiento . . . . . . . . . . . . . . . . . . . . . . . 12 1.1.7. Coste de implantación y adaptabilidad . . . . . . . . . 13 1.2. Ejemplos de tareas costosas para la navegación manual . . . . 13 1.3. Tipos de programas de navegación automatizada . . . . . . . . 16 1.3.1. Programas de navegación genérica no adaptada . . . . 16 1.3.2. Programas de navegación genérica adaptada . . . . . . 17 1.3.3. Programas de navegación particularizada . . . . . . . . 17 1.3.4. Modos de integración de aplicaciones Web . . . . . . . 20 1.3.5. Sistemas mediadores . . . . . . . . . . . . . . . . . . . 22 1.3.6. Asistentes de navegación Web . . . . . . . . . . . . . . 24 1.4. Caracter´ısticas de los datos del Web . . . . . . . . . . . . . . . 25 1.4.1. Voluminosidad . . . . . . . . . . . . . . . . . . . . . . 25 1.4.2. Heterogeneidad . . . . . . . . . . . . . . . . . . . . . . 26 1.4.3. Orientación a los visualización . . . . . . . . . . . . . . 26 i

1.4.4. Relevancia dependiente de la tarea . . . . . . . . . . . 29 1.4.5. Regularidad estructural

. . . . . . . . . . . . . . . . . 30

1.4.6. Ausencia de semántica en el marcado . . . . . . . . . . 32 1.4.7. Niveles de estructuración . . . . . . . . . . . . . . . . . 32 1.4.8. Distribución de la información . . . . . . . . . . . . . . 35 1.4.9. Dif´ıcil modificabilidad . . . . . . . . . . . . . . . . . . 36 1.4.10. Aportaciones de XML . . . . . . . . . . . . . . . . . . 36 1.5. Coste de la navegación automatizada . . . . . . . . . . . . . . 39 1.5.1. Coste de desarrollo . . . . . . . . . . . . . . . . . . . . 41 1.5.2. Coste de ejecución fallida . . . . . . . . . . . . . . . . . 42 1.5.3. Coste de mantenimiento . . . . . . . . . . . . . . . . . 45 1.6. Marco de trabajo . . . . . . . . . . . . . . . . . . . . . . . . . 47 1.7. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 1.8. Estructura de la memoria . . . . . . . . . . . . . . . . . . . . 51 2. An´ alisis de tareas Web

53

2.1. Acciones básicas impl´ıcitas . . . . . . . . . . . . . . . . . . . . 57 2.1.1. Gestión de cabeceras HTTP . . . . . . . . . . . . . . . 57 2.1.2. Gestión de errores en la comunicación con el servidor . 58 2.1.3. Reparación interna de páginas mal construidas . . . . . 58 2.1.4. Seguimiento impl´ıcito de enlaces . . . . . . . . . . . . . 59 2.1.5. Ejecución de comportamientos embebidos en las páginas 60 2.1.6. Soporte para otros protocolos . . . . . . . . . . . . . . 61 2.1.7. Tratamiento adecuado de cada campo de formularios seg´ un su forma de rellenado . . . . . . . . . . . . . . . 61 2.1.8. Creación de query-string a partir de un formulario relleno 62 2.2. Acciones básicas expl´ıcitas . . . . . . . . . . . . . . . . . . . . 63 2.2.1. Extracción de datos relevantes . . . . . . . . . . . . . . 63 2.2.2. Estructuración de datos semiestructurados . . . . . . . 65 2.2.3. Seguimiento expl´ıcito de enlaces . . . . . . . . . . . . . 66 ii

2.2.4. Rellenado de formularios . . . . . . . . . . . . . . . . . 67 2.2.5. Env´ıo de formularios . . . . . . . . . . . . . . . . . . . 68 2.2.6. Procesamiento de datos

. . . . . . . . . . . . . . . . . 68

2.3. Subsanación de las faltas de soporte de la plataforma de navegación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3. Estado de la cuesti´ on

71

3.1. Consideraciones previas . . . . . . . . . . . . . . . . . . . . . . 71 3.2. Automatización de aplicaciones interactivas . . . . . . . . . . 72 3.2.1. Lenguaje Expect . . . . . . . . . . . . . . . . . . . . . 73 3.3. Web Semántico . . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.4. Mecanismos de construcción de programas de navegación automatizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 3.4.1. Uso de APIs estándares . . . . . . . . . . . . . . . . . 83 3.5. Conclusiones del estado de la cuestión . . . . . . . . . . . . . . 87 3.6. Limitaciones de las tecnolog´ıas actuales . . . . . . . . . . . . . 90 4. Selecci´ on de tecnolog´ıas para la automatizaci´ on de tareas en el Web 95 4.1. MSC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 4.1.1. Entidades . . . . . . . . . . . . . . . . . . . . . . . . . 97 4.1.2. Mensajes . . . . . . . . . . . . . . . . . . . . . . . . . . 98 4.1.3. Acciones . . . . . . . . . . . . . . . . . . . . . . . . . . 98 4.1.4. Temporizadores . . . . . . . . . . . . . . . . . . . . . . 99 4.1.5. Corregiones . . . . . . . . . . . . . . . . . . . . . . . . 100 4.1.6. Condiciones . . . . . . . . . . . . . . . . . . . . . . . . 101 4.1.7. Creación y destrucción dinámica de entidades . . . . . 101 4.1.8. Expresiones inline . . . . . . . . . . . . . . . . . . . . . 103 4.1.9. Descomposición modular . . . . . . . . . . . . . . . . . 103 4.2. XPath . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 4.2.1. Secuencias . . . . . . . . . . . . . . . . . . . . . . . . . 108 iii

4.2.2. Variables . . . . . . . . . . . . . . . . . . . . . . . . . . 110 4.2.3. Operadores aritmético-lógicos y de comparación . . . . 110 4.2.4. Ejes de navegación . . . . . . . . . . . . . . . . . . . . 110 4.2.5. Predicados . . . . . . . . . . . . . . . . . . . . . . . . . 111 4.2.6. Llamadas a funciones . . . . . . . . . . . . . . . . . . . 112 4.2.7. Constructores de datos secundarios . . . . . . . . . . . 112 4.2.8. Modificaciones introducidas en XPath 2.0 respecto de XPath 1.0 . . . . . . . . . . . . . . . . . . . . . . . . . 112 4.2.9. Aportaciones de XPath . . . . . . . . . . . . . . . . . . 114 4.3. XPointer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 4.3.1. Puntos . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 4.3.2. Rangos . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 4.3.3. Patrones de texto . . . . . . . . . . . . . . . . . . . . . 116 4.3.4. Aportaciones de XPointer . . . . . . . . . . . . . . . . 117 4.4. XSLT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 4.4.1. Aportaciones de XSLT . . . . . . . . . . . . . . . . . . 119 4.5. XQuery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 4.5.1. Aportaciones de XQuery . . . . . . . . . . . . . . . . . 121 4.6. DOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 4.6.1. Aportaciones de DOM . . . . . . . . . . . . . . . . . . 122 4.7. SAX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.7.1. Aportaciones de SAX . . . . . . . . . . . . . . . . . . . 124 5. XTendedPath: Lenguaje para la consulta y modificaci´ on de documentos XML 125 5.1. Problemas de XPath 2.0 . . . . . . . . . . . . . . . . . . . . . 126 5.1.1. Procesamiento incremental . . . . . . . . . . . . . . . . 126 5.1.2. Dificultad para calcular valores agregados

. . . . . . . 129

5.1.3. Combinar dos o más secuencias en una nueva . . . . . 130 5.1.4. XPath no puede expandirse indefinidamente . . . . . . 130 iv

5.1.5. Poca flexibilidad para llamar a ciertas funciones . . . . 131 5.1.6. Poca reusabilidad para expresiones de tipo “for” . . . . 131 5.2. Soluciones basadas en funciones de orden superior . . . . . . . 131 5.3. Lenguaje XTendedPath: extensión de XPath 2.0 . . . . . . . . 135 5.4. Componentes comunes con XPath 2.0 . . . . . . . . . . . . . . 140 5.4.1. Tipos de datos comunes . . . . . . . . . . . . . . . . . 140 5.4.2. Consideraciones semánticas . . . . . . . . . . . . . . . 141 5.4.3. Funciones de comparación . . . . . . . . . . . . . . . . 143 5.4.4. Funciones lógicas . . . . . . . . . . . . . . . . . . . . . 144 5.4.5. Función TO: (generador de secuencias numéricas) . . . 144 5.4.6. Funciones EVERY y SOME: (expresiones cuantificadas) 145 5.4.7. Funciones eje . . . . . . . . . . . . . . . . . . . . . . . 145 5.4.8. Función F: (predicados) . . . . . . . . . . . . . . . . . 152 5.4.9. Elemento ra´ız del documento . . . . . . . . . . . . . . 154 5.4.10. Funciones de datos secundarios . . . . . . . . . . . . . 154 5.4.11. Operaciones con secuencias

. . . . . . . . . . . . . . . 154

5.5. Extensiones propias de XTendedPath . . . . . . . . . . . . . . 155 5.5.1. Extensiones provenientes de XPointer . . . . . . . . . . 156 5.5.2. Orden superior . . . . . . . . . . . . . . . . . . . . . . 166 5.5.3. Modificación de documentos . . . . . . . . . . . . . . . 170 6. XPlore: Lenguaje para la navegaci´ on y procesamiento de datos en el Web 175 6.1. Componentes de XPlore orientados a la navegación . . . . . . 181 6.1.1. Transacciones HTTP . . . . . . . . . . . . . . . . . . . 181 6.1.2. Combinadores de servicios . . . . . . . . . . . . . . . . 182 6.2. Componentes de XPlore orientados al procesamiento . . . . . 185 6.2.1. Procesos . . . . . . . . . . . . . . . . . . . . . . . . . . 185 6.2.2. Sentencias de control de flujo . . . . . . . . . . . . . . 186 6.2.3. Entrada/salida . . . . . . . . . . . . . . . . . . . . . . 188 v

6.2.4. Estado de ejecución . . . . . . . . . . . . . . . . . . . . 189 6.2.5. Errores en la ejecución . . . . . . . . . . . . . . . . . . 189 6.2.6. Funciones . . . . . . . . . . . . . . . . . . . . . . . . . 189 6.2.7. Llamada a clases Java externas . . . . . . . . . . . . . 190 6.2.8. Llamada a programas externos . . . . . . . . . . . . . . 192 6.2.9. Operador de concurrencia . . . . . . . . . . . . . . . . 192 7. Ejemplos desarrollados con los lenguajes propuestos

195

7.1. Valoración de una cartera de acciones del Nasdaq en euros . . 196 7.2. Publicación de un catálogo de art´ıculos en un Web de subastas 201 7.3. Listado de correos nuevos en un Web de correo gratuito y borrado de spam . . . . . . . . . . . . . . . . . . . . . . . . . 208 7.4. Recomendaciones de desarrollo . . . . . . . . . . . . . . . . . . 213 8. Conclusiones y trabajos futuros

221

8.1. Principales contribuciones . . . . . . . . . . . . . . . . . . . . 221 8.2. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 8.3. L´ıneas de trabajos futuros . . . . . . . . . . . . . . . . . . . . 225 8.3.1. Herramienta CASE . . . . . . . . . . . . . . . . . . . . 225 8.3.2. Accesibilidad a sitios Web orientados a la visualización 226 8.3.3. Desarrollo de agentes inteligentes no particularizados . 228 8.4. Gramática EBNF del lenguaje XPlore

vi

. . . . . . . . . . . . . 229

Índice de cuadros 1.1. Diferencias entre la navegación manual y la navegación automática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.2. Clasificación de programas que navegan por el Web seg´ un su adaptación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.3. Comparaciones aclarativas de alternativas de navegación seg´ un coste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.4. Principales diferencias entre las u ´ltimas versiones de HTML . 29 1.5. Diferencias entre caracter´ısticas de los datos seg´ un su nivel de estructuración . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 1.6. Resumen de aportaciones de XML . . . . . . . . . . . . . . . . 38 1.7. Resumen de tipos de coste de la navegación automatizada . . 40 1.8. Resumen de medidas de robustez seg´ un origen del fallo . . . . 45 2.1. Diferencias entre acciones básicas expl´ıcitas e impl´ıcitas . . . . 57 2.2. Principales cabeceras gestionadas por los clientes del protocolo HTTP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 2.3. Tipo de seguimiento de enlaces HTML dependiendo del browser 60 2.4. Tipo de rellenado de campos de formularios HTML . . . . . . 62 2.5. Acciones básicas expl´ıcitas . . . . . . . . . . . . . . . . . . . . 63 3.1. Resumen de las tecnolog´ıas utilizables . . . . . . . . . . . . . . 87 4.1. Tipos de expresiones inline . . . . . . . . . . . . . . . . . . . . 103 4.2. Ejes de XPath partiendo de un nodo contexto . . . . . . . . . 111 vii

5.1. Resumen de los lenguajes basados en XPath . . . . . . . . . . 138 5.2. Reescritura de tipos de datos de XPath en XTendedPath . . . 141 5.3. Operadores de comparación en XTendedPath . . . . . . . . . . 143 5.4. Operadores lógicos en XTendedPath

. . . . . . . . . . . . . . 144

5.5. Generador de secuencias numéricas en XTendedPath . . . . . 144 5.6. Expresiones cuantificadas en XTendedPath . . . . . . . . . . . 145 5.7. Semántica de la función C . . . . . . . . . . . . . . . . . . . . 146 5.8. Ejemplo de la aplicación de la currificación en la función C . . 146 5.9. Semántica de la función D . . . . . . . . . . . . . . . . . . . . 147 5.10. Semántica de la función DORSELF . . . . . . . . . . . . . . . 147 5.11. Semántica de la función P . . . . . . . . . . . . . . . . . . . . 148 5.12. Semántica de la función A . . . . . . . . . . . . . . . . . . . . 148 5.13. Semántica de la función AORSELF . . . . . . . . . . . . . . . 149 5.14. Semántica de la función PS . . . . . . . . . . . . . . . . . . . 149 5.15. Semántica de la función FS

. . . . . . . . . . . . . . . . . . . 150

5.16. Semántica de la función PREC . . . . . . . . . . . . . . . . . 150 5.17. Semántica de la función FOLL . . . . . . . . . . . . . . . . . . 151 5.18. Semántica de la función AT . . . . . . . . . . . . . . . . . . . 151 5.19. Texto de nodos en XTendedPath . . . . . . . . . . . . . . . . 152 5.20. Semántica de la función F . . . . . . . . . . . . . . . . . . . . 153 5.21. Elemento ra´ız del documento

. . . . . . . . . . . . . . . . . . 154

5.22. Funciones de datos secundarios . . . . . . . . . . . . . . . . . 154 5.23. Expresiones con secuencias . . . . . . . . . . . . . . . . . . . . 155 5.24. Operador de evaluación alternativa . . . . . . . . . . . . . . . 157 5.25. Puntos adyacentes de un nodo x . . . . . . . . . . . . . . . . . 159 5.26. Operador de patrones de texto . . . . . . . . . . . . . . . . . . 162 5.27. Funciones auxiliares . . . . . . . . . . . . . . . . . . . . . . . . 163 5.28. Algunos ejemplos de rangos . . . . . . . . . . . . . . . . . . . 164 5.29. Semántica de la expresión INSIDE(a,b) . . . . . . . . . . . . . 164 viii

5.30. Ejemplos de uso del operador jerárquico INSIDE . . . . . . . . 165 5.31. Semántica de la expresión CONTAIN(a,b) . . . . . . . . . . . 165 5.32. Funciones de orden superior de XTendedPath . . . . . . . . . 167 5.33. Ejemplos de expresiones XPath y sus equivalentes en XTendedPath . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 5.34. Operadores básicos de modificación de documentos . . . . . . 171 5.35. Ejemplos de uso de la función MASK . . . . . . . . . . . . . . 173 6.1. Relación de expresiones inline con sentencias de control de flujo188 6.2. Primitivas de entrada/salida . . . . . . . . . . . . . . . . . . . 188 6.3. Primitivas de cambio de estado de ejecución . . . . . . . . . . 189 6.4. Primitivas de errores de ejecución . . . . . . . . . . . . . . . . 189 7.1. Estructura del documento XML con las cotizaciones del Nasdaq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197

ix

x

Índice de figuras 1.1. Sistema mediador . . . . . . . . . . . . . . . . . . . . . . . . . 23 1.2. Comparación de navegación manual con automática . . . . . . 25 1.3. Regularidad en el Web . . . . . . . . . . . . . . . . . . . . . . 31 3.1. Script Expect para controlar ejecución interactiva de ftp . . . 74 3.2. Script Expect para controlar ejecución interactiva de talk . . . 75 3.3. Ejemplo de documento XML sencillo . . . . . . . . . . . . . . 84 3.4. Programa Java que extrae datos de documento XML con DOM 84 3.5. Programa Java que extrae datos de documento XML con XPath 85 3.6. Hoja XSLT que extrae datos de documento XML . . . . . . . 86 4.1. Entidades de un MSC . . . . . . . . . . . . . . . . . . . . . . 98 4.2. Mensajes de un MSC . . . . . . . . . . . . . . . . . . . . . . . 99 4.3. Acciones de un MSC . . . . . . . . . . . . . . . . . . . . . . . 99 4.4. Temporizadores de un MSC . . . . . . . . . . . . . . . . . . . 100 4.5. Corregiones en un MSC . . . . . . . . . . . . . . . . . . . . . 101 4.6. Condiciones de un MSC . . . . . . . . . . . . . . . . . . . . . 102 4.7. Creación y destrucción dinámica de entidades en un MSC . . . 102 4.8. Expresiones inline en un MSC . . . . . . . . . . . . . . . . . . 104 4.9. Referencias a otros MSC . . . . . . . . . . . . . . . . . . . . . 105 4.10. MSC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.11. Funcionalidades de XPath 2.0 comparadas con las de XPath 1.0109 4.12. Representación de elementos XPointer en un fragmento XML . 116 xi

4.13. Expresión XPath reformulada con el operador if . . . . . . . . 120 4.14. Expresión XPath reformulada con el operador every . . . . . . 120 5.1. Expresión XPath 2.0 que calcula importe de ventas con subtotales parciales . . . . . . . . . . . . . . . . . . . . . . . . . . 127 5.2. Pseudocódigo basado en variables que calcula subtotales . . . 127 5.3. Pseudocódigo basado en funciones que calcula subtotales . . . 128 5.4. Ejemplo de expresión de tipo for . . . . . . . . . . . . . . . . . 131 5.5. Ejemplo foldl en Haskell . . . . . . . . . . . . . . . . . . . . . 133 5.6. Ejemplo zip en Haskell . . . . . . . . . . . . . . . . . . . . . . 133 5.7. Ejemplo scanl en Haskell . . . . . . . . . . . . . . . . . . . . . 133 5.8. Ejemplo scanl1 en Haskell . . . . . . . . . . . . . . . . . . . . 134 5.9. Elementos para los que f() es m´ınimo . . . . . . . . . . . . . . 135 5.10. Determinar si para una secuencia se devuelve todo positivo . . 135 5.11. Para una secuencia se devuelve ordenado . . . . . . . . . . . . 135 5.12. Restricción que debe cumplir todo rango en XTendedPath . . 160 5.13. Restricción de rangos reescrita con operadores jerárquicos . . . 165 5.14. Algunas funciones de orden superior definidas en XTendedPath 168 5.15. Ejemplo de expresión lambda definida en Java . . . . . . . . . 170 5.16. Ejemplo de expresiones de rellenado de formulario . . . . . . . 171 5.17. Expresión XPath equivalente a source//address[addressee[text() =name]] . . . . . . . . . . . 173 6.1. Representación de transacción HTTP . . . . . . . . . . . . . . 182 6.2. Ejemplo de ejecución temporizada . . . . . . . . . . . . . . . . 183 6.3. Ejemplo de ejecución reiterada . . . . . . . . . . . . . . . . . . 184 6.4. Ejemplo de ejecución secuencial . . . . . . . . . . . . . . . . . 184 6.5. Ejemplo de ejecución concurrente . . . . . . . . . . . . . . . . 185 6.6. Ejemplo de combinación de servicios . . . . . . . . . . . . . . 185 6.7. Representación de un bucle y una sentencia condicional anidados en XPlore notación MSC . . . . . . . . . . . . . . . . . 187 xii

6.8. Ejemplo de sentencias anidadas en notación compacta de XPlore187 6.9. Representación de llamadas a funciones en XPlore notación MSC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 6.10. Ejemplo de definición de función Identif en XPlore notación compacta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 6.11. Ejemplo de llamada de función en XPlore

. . . . . . . . . . . 191

6.12. Ejemplo de llamada a clases Java desde XPlore notación compacta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 6.13. Representación de llamada a programa externo . . . . . . . . . 192 6.14. Representación de operador de concurrencia . . . . . . . . . . 194 7.1. Cambio de divisas del BCE . . . . . . . . . . . . . . . . . . . 197 7.2. MSC gráfico del programa Nasdaq . . . . . . . . . . . . . . . . 198 7.3. Programa Nasdaq en XPlore notación MSC . . . . . . . . . . 199 7.4. Programa Nasdaq en XPlore notación compacta . . . . . . . . 200 7.5. MSC gráfico del programa Aucland . . . . . . . . . . . . . . . 202 7.6. Programa Aucland en XPlore notación MSC . . . . . . . . . . 203 7.7. Campos del formulario de publicación de Aucland . . . . . . . 204 7.8. Programa Aucland en XPlore notación compacta . . . . . . . 205 7.9. Programa Aucland en XPlore notación compacta (2) . . . . . 206 7.10. Programa Aucland en XPlore notación compacta (3) . . . . . 207 7.11. Bandeja de entrada del correo de Yahoo! . . . . . . . . . . . . 208 7.12. MSC gráfico del programa YahooMail . . . . . . . . . . . . . . 210 7.13. MSC gráfico del programa YahooMail (2) . . . . . . . . . . . . 211 7.14. Programa YahooMail en XPlore notación MSC . . . . . . . . . 212 7.15. Programa YahooMail en XPlore notación MSC (2) . . . . . . 213 7.16. Programa YahooMail en XPlore notación compacta . . . . . . 214 7.17. Programa YahooMail en XPlore notación compacta (2) . . . . 215

xiii

xiv

Agradecimientos Quiero agradecer a todas aquellas personas que, de una un otra forma, han hecho posible este trabajo. Agradezco a mis padres el haber depositado su confianza en m´ı y haberme permitido seguir adelante y haberme apoyado en todo momento. A mis directores de tesis, quiero agradecerles los buenos y consejos y las sabias preguntas que me hicieron buscar las respuestas para elaborar este trabajo. A mis compa˜ neros del Departamento de Ingenier´ıa Telemática, por toda la colaboración recibida y por todo lo que de ellos he aprendido en estos a˜ nos de doctorado. A mis antiguos compa˜ neros de la Facultad de Informática, de donde tant´ısimas cosas aprend´ı. A mis amigos y amigas por haber estado ah´ı todo este tiempo.

1

2

Resumen Actualmente, millones de usuarios en todo el mundo se ven abocados a realizar cada d´ıa tareas en Internet, manejando de forma repetida un conjunto cada vez mayor de remotas aplicaciones que se encuentran accesibles en el Web. Para todas esas labores, la gran mayor´ıa de esas personas apenas cuenta con la u ńica ayuda de los browsers, lo cual confiere al proceso de navegación una alta necesidad de interacción por parte del usuario, en lo que habitualmente se conoce como navegaci´ on manual. Sin embargo, ello a menudo implica un esfuerzo demasiado elevado para muchas personas, especialmente cuando el volumen de datos es grande o la complejidad de su manejo requiere muchas interacciones con el browser. Desarrollar programas que naveguen automatizadamente por el Web, manipulando inteligentemente la información disponible en Internet es una necesidad cada vez más demandada en numerosos entornos. Sin embargo, el desarrollo de este tipo de programas tradicionalmente se ha afrontado con técnicas que implican un alto coste de desarrollo y un elevado coste de mantenimiento, además de tener una vida demasiado corta y ser muy sensibles a peque˜ nas modificaciones en las páginas accedidas. En este trabajo se proponen nuevas técnicas basadas en estándares para reducir el coste de estos desarrollos y mejorar la estabilidad de estos programas.

3

4

Abstract Nowadays, millions of people around the world have to daily perform tasks on Internet, repeatedly managing an increasing amount of Web enabled applications. For many of these tasks, most people use browsers, by manually and mecanically interacting with screens of data retrieved from remote computers. However, this implies too much effort for too many people, specially when the amount of data is big or those data require complex managements with several user interactions. Developing wrapper agents to automate these tasks for the user, by intelligently managing Web’s data is an increasingly demanded need at several enterprises. However these programs have traditionally had a large development and maintenance cost, they have had very short lives and their behaviour when minor changes affect pages is not desirable. This document presents several standards-based new techniques for reducing these costs and making these programs more stable.

5

6

Cap´ıtulo 1 Planteamiento y objetivos Esta tesis doctoral aborda el problema de la automatización de tareas en el Web. En cualquier automatización, como por ejemplo cualquiera de las llevadas a cabo en un complejo industrial, se persigue delegar en las máquinas la realización de trabajos, de forma que éstos sean llevados a cabo con la m´ınima intervención humana y mecánica posible bajo un coste amortizable. El World Wide Web se ha convertido en poco tiempo en el mayor repositorio de conocimiento de la humanidad. Una multitud creciente de servicios Web, que comprenden, por una parte, a los servidores de información almacenada en simples páginas Web, y por otra, a las aplicaciones remotamente accesibles desde el Web para muy diversos propósitos, se puede acceder a través de una gran variedad de páginas Web. Gran cantidad de esa información se encuentra muchas veces almacenada en bases de datos que, siendo accesibles mediante interfaces espec´ıficamente dise˜ nadas para el Web, se encuentran sin embargo a veces sin explorar conforme a las necesidades particulares de muchos usuarios. Mucha información, ciertamente, pero en especial muchas aplicaciones accesibles remotamente desde el Web, acaban quedando infrautilizadas para muchos usuarios en un mundo donde los browsers se han quedado ciertamente limitados como herramientas de trabajo, ya que carecen de cualquier tipo de propósito más allá que el de la mera presentación paginada de datos al usuario y la recogida de datos del usuario mediante formularios. La heterogeneidad del Web actual es inmensa. Por un lado, hay innumerables formas posibles de organizar y estructurar los contenidos dentro de cada página mediante distintas combinaciones de etiquetas de marcado, no sólo HTML sino también XML. Por otro lado, existen m´ ultiples variantes para distribuir la información entre las distintas páginas, as´ı como m´ ultiples 7

maneras de dejar éstas enlazadas entre s´ı. Toda esta heterogeneidad dificulta enormemente la integración de datos obtenidos de distintos servidores para su combinación o gestión unificada. La integración de datos de diversas fuentes, bien para la obtención de datos elaborados con valor a˜ nadido (sindicación de contenidos), bien como cadena de suministro (aplicaciones que deban pasarse datos de unas a otras), es un área que actualmente está demandando un creciente interés, habida cuenta de la necesidad de automatizar el manejo de grandes vol´ umenes de datos en el Web. En ocasiones, los usuarios se encuentran con la tarea de tener que rellenar muchas veces un conjunto conocido de formularios o seguir de forma repetitiva un mismo conjunto de enlaces para poder conseguir la información que desean o para poder manejar intensivamente aplicaciones remotamente por medio del Web. Estos usuarios acaban invirtiendo para ello gran cantidad de tiempo en labores que, dado su automatismo, ser´ıa muchas veces posible que se realizaran autónonamente por un ordenador. Es habitual que muchas de estas aplicaciones del Web ofrezcan interfaces para realizar transacciones simples, pero no que dispongan de interfaces para ofrecer m´ ultiples transacciones que puedan ser procesadas por lotes. Sin embargo, los usuarios no disponen hoy en d´ıa de otra herramienta más allá del browser, por lo que acaban debiendo aprobar con un click de ratón cada enlace que desean seguir una y otra vez, transacción a transacción, repetidamente cada vez que manejan una de estas aplicaciones accesibles desde el Web. Tradicionalmente, uno de los grandes problemas del Web estriba en la incapacidad de manejar en él grandes vol´ umenes de información de forma efectiva, conforme a los deseos de los usuarios. Los grandes buscadores apenas resuelven una peque˜ na parte del problema de la b´ usqueda de información. Aunque son capaces de listar los documentos del Web en los que se sabe que aparecen los términos de b´ usqueda, no sin problemas como los apuntados por [28], los buscadores no dejan de devolver como resultados documentos enteros, dejando al usuario la responsabilidad de analizar su estructura, semántica o funcionalidad interna con el fin de buscar all´ı los datos que le interesan. Sin duda, las necesidades de los usuarios son mucho más complejas que aquellas a las que puede dar respuesta un simple buscador, ya que, una vez delante de la página en la que debe empezar a trabajar, debe ser el usuario quien indique por dónde navegar, construyendo as´ı el camino que le lleve a conseguir sus objetivos.

8

1.1.

Diferencias entre navegaci´ on manual y autom´ atica

Dentro del mundo industrial en general, la automatización persigue incrementar la productividad de las personas, minimizando los errores propios de la naturaleza humana y mejorando as´ı la eficiencia en la realización de trabajos y en la optimización de los recursos involucrados. Con la automatización de tareas en el Web se persiguen esos mismos objetivos aplicados en la realización del cada vez mayor n´ umero de tareas que pueden realizarse a través del Web. Al igual que en cualquier empresa, el objetivo principal de la automatización de tareas en el Web es ahorrar tiempo y esfuerzo a las personas. En el caso del Web, los beneficios de la automatización serán más patentes en aquellas tareas que necesiten procesar grandes vol´ umenes de información o que deban ser frecuentemente ejecutadas. Trasladando a las máquinas las actividades más automatizables y rutinarias, se permite ahorrar esfuerzo a las personas. Gracias a ello las personas pueden centrarse en otras actividades, habitualmente más productivas, creativas y probablemente más adecuadas para sus trabajos y sus preparaciones. Sin duda, la productividad y creatividad humana se ve muchas veces aletargada por las tareas más rutinarias de navegación en el Web. El hecho de tener que realizar una y otra vez los mismos pasos d´ıa a d´ıa delante de un browser, siguiendo los mismos enlaces y rellenando una y otra vez los mismos formularios, acaba siendo una tarea que requiere demasiado esfuerzo y dedicación para muchas personas. Ejemplos de tareas que pueden requerir ser realizadas frecuentemente, son las que se pueden llevar a cabo con aplicaciones como las bancarias (comprobaciones de saldo, transferencias, listado de movimientos, operaciones de bolsa, subastas de depósitos, fondos de inversión ...), de subastas (publicación de art´ıculos para vender, b´ usqueda y comparación de art´ıculos para pujar, inserción de pujas, gestión de avisos, evaluación de transacciones, ...), de compra-venta (b´ usqueda y comparación de art´ıculos, realización de pedidos y de pagos, ...), de reserva de billetes de avión o de tren, habitaciones de hotel, entradas a espectáculos, env´ıo de mensajes, as´ı como un largo etcétera. Estas aplicaciones se encuentran cada vez más frecuentemente, tanto en las intranets de las empresas, como accesibles a todo el mundo en un gran n´ umero de servidores. Algunas de las tareas Web, en especial las que deben hacerse de forma repetitiva mediante browsers, suponen demasiado esfuerzo, en tanto en cuanto para llevarlas a cabo, las acciones mecánicas que debe ejecutar el usuario para indicar sus instrucciones al ordenador, deben ser repetidas muchas veces. 9

Al contrario de lo que ocurre con la navegación manual basada en browsers, gracias a la automatización de tareas en el Web, grandes vol´ umenes de información distribuida en m´ ultiples bases de datos accesibles desde el Web pueden ser procesados conforme a los intereses de los usuarios requiriendo de ellos un esfuerzo m´ınimo. Las principales diferencias entre la navegación manual y la automática, resumidas en la tabla 1.1, aparecen detalladas a continuación.

Navegaci´ on manual

Navegaci´ on autom´ atica

Intervenci´ on

Humana

Ordenador

Acci´ on

Mec´ anica

Programada

Esfuerzo

De navegaci´ on

De programaci´ on

Errores

De navegaci´ on

De programaci´ on

Tiempo de respuesta

Significativo

Ínfimo

Requisitos

Browser

Conexi´ on

Repositorios

No programables

Programables

Procesamiento

C´ alculo mental

Automatizable

Volumen de datos

Limitado

Enorme

Implantaci´ on

Factible

Costosa

Adaptabilidad ante cambios

Tolerable

Costosa

Cuadro 1.1: Diferencias entre la navegación manual y la navegación automática

1.1.1.

Esfuerzo

El Web actual está dise˜ nado para ser navegado de forma interactiva, con el usuario proporcionando mecánicamente una a una sus instrucciones detrás de la pantalla del ordenador, haciendo click en cada enlace que desea seguir. Ello supone en muchas ocasiones un serio coste de recursos humanos, esto es, de personas que deben dedicar a menudo una gran cantidad de tiempo, esfuerzo y perseverancia frente al ordenador para realizar tareas sencillas. Frente a esa opción, una tarea automatizada por un programa capaz de navegar en lugar del usuario, emulando el comportamiento de la actuación conjunta de éste y del navegador, puede reducir significativamente ese coste de navegación. 10

1.1.2.

Propensi´ on a errores

La interacción mecánica de las personas en la navegación manual aumenta en gran medida la propensión a cometer errores durante la ejecución de la tarea. Este riesgo se hace más probable cuando el conjunto de datos que debe ser manipulado es voluminoso. Por el contrario, un programa que navegue automáticamente por el Web puede manipular eficiente y adecuadamente grandes vol´ umenes de información, incluso a pesar de que ésta se encuentra distribuida en varias fuentes de datos.

1.1.3.

Tiempo de respuesta

Pese a que el rendimiento de una aplicación Web está principalmente condicionado por el tiempo de respuesta del servidor y de las conexiones que comunican a éste con el cliente, lo cierto es que, las personas, cuando navegamos delante de un browser en el que debemos introducir interactivamente nuestras órdenes, tenemos unos tiempos de respuesta significativos. Además, y no menos importante, las personas somos fácilmente distra´ıbles de nuestros cometidos, como puede ocurrir con la aparición de enlaces que inesperadamente reclamen nuestra atención por un tema que nos interese y no tenga nada que ver con la tarea que nos estaba ocupando. Incluso en una escena en la que un operador se encuentre altamente concentrado en la realización de una tarea con un browser, el simple hecho de tener que activar mecánicamente unos dispositivos de introducción de datos, como el teclado y el ratón, estando a la vez pendiente de varias ventanas abiertas en la pantalla que reclaman simultáneamente la atención del usuario, supone unos tiempos de retraso que, aunque aceptables para unas pocas transacciones, resultan ciertamente frustrantes cuando el n´ umero de acciones mecánicas a ejecutar acaba siendo elevado, especialmente debido a la imposibilidad de ordenar trabajos por lotes en el Web.

1.1.4.

Requisitos hardware y software

Sin duda, uno de los grandes problemas de los browsers es que, además de la intervención mecánica necesaria para poder proceder al seguimiento de enlaces, requieren de hardware y software especializado, de forma que gran parte del Web ahora mismo está pensada exclusivamente para ser accesible desde ordenadores personales (PC), con unas resoluciones de pantalla determinadas, y con unos requisitos de software espec´ıficos muy concretos. 11

Sin embargo, la proliferación de un cada vez mayor n´ umero de dispositivos electrónicos conectados a la red, como algunas cabinas p´ ublicas de acceso a Internet, los dispositivos inalámbricos, u otros peque˜ nos electrodomésticos, está aumentando el n´ umero de dispositivos con reducidas capacidades de visualización de datos, que, sin embargo, no dejan de ser capaces de tratar adecuadamente los datos de la Red. Estos dispositivos podr´ıan fácilmente conectarse a la red para automatizar tareas en el Web, al igual que lo hace cualquier otro ordenador, conforme a lo propuesto en [42], prescindiendo, al tratar automáticamente las páginas sin necesitar que el usuario las visualice para proporcionar interactivamente sus instrucciones sobre las mismas, de las capacidades de visualización que s´ı poseen los ordenadores de sobremesa en los que se ejecutan los browsers. Es decir, la navegación manual está prácticamente limitada a un conjunto muy particular de dispositivos (aquellos que tengan instalado el browser contemplado por el sitio Web), mientras que la navegación automática, al carecer de esas restricciones, puede llevarse a cabo desde un n´ umero mucho mayor de dispositivos de acceso, como neveras, asistentes personales, teléfonos móviles, set-top boxes ...

1.1.5.

Adecuaci´ on de repositorios

Otro de los problemas con los que se encuentran las personas que navegan con browsers es que la forma de recolectar los datos relevantes que van encontrando está basada en métodos poco automatizables, e inadecuados para grandes vol´ umenes de datos, como la memorización, el apuntar los datos en un papel, guardar toda la página a fichero, imprimirla para analizarla frente a otras personas en una reunión, o, quizá en el mejor de los casos, el simple copiar y pegar en la ventana de otra aplicación. Sin embargo, ni el papel, ni la memoria humana, ni una ventana abierta de un editor de texto son repositorios adecuados para almacenar los datos relevantes que se van extrayendo de las páginas cuando el volumen de datos empieza a ser considerable. Por el contrario, desde el punto de vista de la automatización de tareas, es deseable la utilización de repositorios de datos accesibles desde programas de ordenador, como variables de memoria, ficheros con alg´ un tipo de estructura conocida por el programador o registros en una base de datos.

1.1.6.

Procesamiento

Pese a que muchas veces el procesamiento que se debe realizar sobre los datos del Web es realmente sencillo, (aunque ciertamente es posible que en 12

el futuro estos procesamientos se puedan volver cada vez más complejos), lo cierto es que el volumen de datos que muchas veces hay que manejar en el Web es demasiado alto como para ser manejado mentalmente por personas delante de un navegador. Es fácil encontrar la versión más barata de un libro en una página que tenga pocos ejemplares, pero ya no lo es tanto cuando se desean comparar un gran n´ umero de listados de tiendas, cada una con sus propios precios, de forma que haya que mezclar los resultados de todas ellas, y calcular el gasto final incluyendo gastos de env´ıo, descuentos especiales o promocionales, o eliminando resultados repetidos. Realizar este tipo de tareas es algo que puede fácilmente ser automatizado por un programa capaz de acceder a los datos involucrados si éstos se encuentran convenientemente almacenados en un repositorio adecuado de datos como los mencionados en el punto anterior.

1.1.7.

Coste de implantaci´ on y adaptabilidad

Todas las ventajas de la navegación automática frente a la navegación manual tienen un coste. Desarrollar aplicaciones que automaticen las tareas de navegación en el Web es costoso. Apenas existen técnicas espec´ıficamente orientadas a la reducción del coste de implantación de este tipo de programas. Buena parte de ellas puede encontrarse en el cap´ıtulo 3. Sin embargo, cualquier m´ınimo cambio en la estructura de las páginas involucradas en una tarea puede acabar requiriendo una ardua labor de mantenimiento. Por el contrario, las páginas cuya estructura es frecuentemente actualizada, no plantean excesivos problemas a las personas que las navegan manualmente con browsers, pues el comportamiento humano es fácilmente adaptable a las nuevas circunstancias, algo que no puede decirse normalmente del comportamiento de los programas de ordenador. En el apartado 1.5 aparecen más detallados estos costes.

1.2.

Ejemplos de tareas costosas para la navegaci´ on manual

Seg´ un aumentan las posibilidades de realizar nuevas acciones en un mundo cada vez más interconectado, resulta cada vez menos dif´ıcil encontrar tareas capaces de absorber horas de trabajo a sus usuarios o en las que se justifique poco la conveniencia de que éstos deban estar presentes en todo momento ante la pantalla del ordenador. A continuación figura una lista de posibles 13

tareas Web que reflejan los problemas: Solicitar al Web de Hacienda el env´ıo de datos fiscales de 100 personas. Actualmente esa labor se desarrolla rellenando un formulario en un u ńico paso, pero que debe ser rellenado y enviado una vez para cada persona, introduciendo datos personales y fiscales de la declaración anterior. Publicar en eBay un catálogo de una tienda con 500 art´ıculos en subastas. Actualmente cada art´ıculo requiere el rellenado del orden de unos 8 ó 9 formularios, que aparecen en secuencia y que empiezan por la selección del tipo de subasta y categor´ıa en la que se desea publicar, contin´ uan preguntando por información especializada del art´ıculo basada en las selecciones anteriores, y acaban solicitando una confirmación de que todo está conforme para el usuario. En algunos de los pasos cabe la posibilidad de que aparezcan variantes en la secuencia, como por ejemplo los que se desprenden del hecho de que cada art´ıculo pueda incluir o no fotograf´ıa, por lo que para esos art´ıculos puede ser necesario rellenar un formulario aparte para enviar la foto al servidor. Además, resulta deseable realizar una serie de m´ınimas comprobaciones en cada paso, como el cercioramiento de que las tarifas que se pretenden cobrar son las que el usuario espera, o que se confirme que cada art´ıculo ha sido efectivamente puesto en subasta (no hacer este tipo de comprobaciones significa no tener garantizado el cumplimiento de la tarea). El algoritmo de esta tarea consistirá en el rellenado en secuencia de los formularios necesarios para la publicación de un art´ıculo, contemplando las cuestiones mencionadas, de forma que esa secuencia figure dentro de un bucle que itere sobre los art´ıculos que se desea publicar, presumiblemente le´ıdos de alg´ un repositorio definido por el usuario. Buscar con Google cada semana las páginas de cierto tema, manteniendo para ello una lista acumulada de páginas ya conocidas que se restará a los resultados obtenidos. De esta forma se presentará al usuario una lista que contenga exclusivamente las direcciones hasta el momento no conocidas por el usuario y que los robots de Google, en su continuo devenir por la red, van descubriendo. En todo caso, los resultados que se analicen de Google no deben comprender sólo la primera página de resultados, sino que debe inspeccionar todas independientemente de la paginación, filtrando de los resultados encontrados aquellos que aparezcan en la lista de conocidos por el usuario. Dicha lista deberá residir en un fichero en el ordenador del usuario, capaz de ser actualizado por 14

éste, pues Google, en su versión actual, no permite albergar este tipo de información personalizada para cada usuario. Componer un listado con los titulares de los principales periódicos cada ma˜ nana. Los resultados podr´ıan ser visualizados en una televisión conectada a Internet mediante una set-top box que recoja los titulares de varias fuentes de noticias del Web y las presente agrupadas al usuario por secciones o seg´ un sus preferencias. Buscar, desde una nevera conectada a Internet, la mejor oferta de leche fresca en varias tiendas, incluyendo, a ser posible, no sólo la b´ usqueda en tiendas habilitadas para neveras, sino en cualquier tienda que venda a domicilio. Ampliar la tarea anterior para que busque la tienda que pide menos dinero por la entrega a domicilio de una cesta de la compra con varios art´ıculos, incluyendo los gastos de env´ıo y descuentos aplicables de cada tienda. Chequear si, entre los mensajes en varias cuentas de correo Web (de varios portales) hay algunos que cumplan ciertos requisitos, como remitentes especiales o fechas o asuntos determinados. A cada uno de esos mensajes, aplicarles ciertas acciones, como extraer de ellos los cuerpos de los mensajes para ser le´ıdos, cambiarlos de carpeta, responderlos, reenviarlos a alguna dirección o simplemente borrarlos. Mandar un SMS (Short Message Service) a una lista de teléfonos móviles usando los formularios que para ello ponen accesibles algunos portales del Web, a ser posible eliminando las restricciones que imponen estos portales sobre tama˜ no de los mensajes y n´ umero de mensajes enviados por unidad de tiempo. Buscar en alg´ un reconocido portal de ocio los restaurantes de una determinada zona geográfica, seleccionar aquellos que sirvan comida a domicilio y comparar sus ofertas. Combinar la información de restaurantes de un portal de ocio (que indique si aceptan tarjeta de crédito) con el callejero de la ciudad ofrecido por otro portal para obtener un listado de restaurantes que acepten tarjeta de crédito que estén cerca de la salida del cine al que voy a ir esta tarde. 15

La mayor´ıa de los ejemplos anteriores está pensada para automatizar un elevado volumen de datos en una aplicación accesible desde el Web, como puede ser una aplicación de recolección de datos de la Administración, un buscador, una aplicación de publicación de subastas, una aplicación de env´ıo de mensajes a móviles o una que gestione cuentas de correo electrónico desde el Web. En algunos casos, en lugar de acceder a una aplicación, la tarea debe acceder simplemente a varias páginas de estructura conocida pero de información variante, con el fin de combinar la información dispersa en esas fuentes de la forma deseada por el usuario.

1.3.

Tipos de programas de navegaci´ on automatizada

Para conseguir automatizar tareas en el Web se necesita disponer de aplicaciones que automaticen la navegación de los usuarios en páginas y aplicaciones en el Web, de forma que sustituyan al usuario siguiendo alguna secuencia de enlaces que deban seguirse y formularios que deban rellenarse para poder realizar la tarea. Los programas que pueden navegar en el Web pueden clasificarse seg´ un su grado de particularización a las páginas Web que se espera que visiten. Dicho criterio permite clasificar estos programas en tres grandes grupos:

1.3.1.

Programas de navegaci´ on gen´ erica no adaptada

Son programas que no están particularizados a ning´ un sitio Web y que, por lo tanto, pueden ser usados en cualquiera de ellos. Normalmente se dedican a solicitar interactivamente al usuario información acerca de qué enlaces seguir (browsers), o bien a seguir todos los enlaces de un sitio Web para realizar una tarea muy sencilla, normalmente idéntica en cada una de las páginas encontradas, como por ejemplo, la indexación por palabras de cada una de sus páginas (robots de buscadores), la comprobación de enlaces rotos [126], la descarga completa de sitios Web [20] o el aviso de que ciertas páginas han sido actualizadas recientemente [15]. Dado que estos programas carecen normalmente de un contexto semántico (ver tabla 1.6) y por lo tanto, son incapaces de particularizar su comportamiento al significado semántico de los datos de las páginas visitadas, sólo pueden ser usados en tareas muy sencillas, sin posibilidades de poder navegar de forma eficiente por el deep Web [110, 105]. 16

1.3.2.

Programas de navegaci´ on gen´ erica adaptada

Son programas que, siendo en principio utilizables en cualquier Web, necesitan meta-informaci´ on acerca del mismo para poder navegarlo de forma adaptada a sus caracter´ısticas particulares. Normalmente, suelen analizar primero la meta-información, expresada en términos declarativos, del sitio Web para decidir mientras navegan qué enlaces tienen la mayor probabilidad de llevar a la consecución de unos objetivos preestablecidos. El Web Semántico [87] del W3C es un prometedor exponente de esta forma de automatización de tareas en el Web.

1.3.3.

Programas de navegaci´ on particularizada

Son programas totalmente particularizados a las peculiaridades de un sitio Web concreto, por lo que, en principio, no son reutilizables en otros sitios Web. Estos programas, com´ unmente denominados wrappers o código envoltorio [70], presentan importantes ventajas, ya que no necesitan ning´ un tipo de metadatos y pueden estar completamente adaptados a las caracter´ısticas del sitio Web visitado. Mediante el seguimiento, particularizado al sitio Web, de enlaces pre-programados estáticamente seg´ un la semántica que el programador impl´ıcitamente refleja en el código de estos programas, prácticamente casi cualquier tarea concebida por el usuario puede ser desarrollada de forma eficiente, teniendo además en cuenta sus preferencias acerca de la forma en la que desea que se lleve a cabo la tarea. Por ejemplo, para borrar el correo spam en la bandeja de entrada de una cuenta de correo Web como el de Yahoo!, un usuario puede querer marcar los correos de ciertos dominios que él considera spam, para después pulsar en el botón de borrado, mientras que otro usuario puede preferir seleccionar los mensajes con determinados asuntos moviéndolos a una carpeta temporal que será borrada posteriormente. Sin embargo, este tipo de programas son muy costosos, tanto de desarrollar (debe implementarse uno para cada tarea), como de mantener (cualquier cambio en la estructura de las páginas accedidas puede provocar un malfuncionamiento del programa). En la tabla 1.2 aparecen resumidas las principales caracter´ısticas de los distintos tipos de programas que navegan por el Web seg´ un su grado de adaptación a las páginas de esos sitios Web.

17

Gen´ erica no adaptada

Gen´ erica adaptada

Particularizada

Ejemplos

Browsers, robots

Web Sem´ antico

Wrappers

Algoritmo

Usuario, fuerza bruta

Guiado por objetivos

Pre-programado

Contexto sem´ antico

Nulo

Metadatos declarativos

Impl´ıcito en programaci´ on

Construcci´ on de caminos

Usuario, todos

Din´ amica

Est´ atica, pero flexible

Implantabilidad

F´ acil

Incipiente, a largo plazo

Conocida y factible

Mantenimiento

Ínfimo

F´ acil (declarativo)

Costoso (programaci´ on)

Aplicable a cualquier Web

S´ı

Si tiene metadatos

No

Automatizaci´ on de tareas

MUY simples

No complejas

S´ı

Cuadro 1.2: Clasificación de programas que navegan por el Web seg´ un su adaptación Comparaciones de costes Siempre que se permita al autor un par de peque˜ nas licencias literarias, cabr´ıa quizá comparar los distintos tipos de programas orientados a la navegación en el Web con soluciones médicas que intentan paliar una enfermedad en una persona y con la navegación marina. Los programas genéricos no adaptados podr´ıan asimilarse a los tratamientos médicos más sencillos, sin receta y con un bajo coste, y que todo el mundo puede usar, como el hecho de beber agua, ingerir té verde o incluso tomar una aspirina. Son éstas soluciones válidas y fácilmente aplicables para problemas habitualmente comunes de encontrar. Los programas genéricos adaptados podr´ıan quizá asimilarse a una fisioterapia o a un tratamiento medicinal con receta médica. Este tipo de soluciones está enfocada a una finalidad más espec´ıfica que los tratamientos sencillos son incapaces de resolver por s´ı mismos, por lo que se requiere normalmente la ayuda de alguien externo capaz de facilitar la solución al usuario. Finalmente, los programas no genéricos, esto es, los completamente particularizados, pueden ser comparables a una operación de cirug´ıa. Este tipo de operaciones tiene un coste sensiblemente superior al de otras alternativas, pero es realmente efectivo cuando el problema del usuario no puede ser solucionado con las técnicas anteriores. De la misma forma, puede hacerse un s´ımil de la navegación en el deep Web con los viajes en el mar. Una navegación basada en browsers puede ser asimilada con un buzo, capaz de sumergirse con autonom´ıa propia por cualquier recoveco marino por estrecho que sea, pero incapaz de recorrer grandes distancias ni de llegar a grandes profundidades (además de estar frecuentemente orientada al ocio). Los robots son asimilables a los barcos, capaces de 18

recorrer grandes distancias en superficie, pero incapaces de navegar por el deep Web rellenando formularios o siguiendo enlaces de profundidad potencialmente ilimitada. La gran diversidad de robots seg´ un su complejidad es asimilable a la gran diversidad de barcos existentes, desde peque˜ nas balsas a transatlánticos, seg´ un su complejidad. En todos los casos, su navegación está centrada en la parte más superficial del mar y nunca se sumergen en el fondo del deep Web. La navegación con alternativas genéricas adaptadas como la del Web Semántico es asimilable a varias alternativas, seg´ un el punto de vista de sus promotores o sus detractores. Para los primeros, el Web Semántico es comparable a un enorme submarino tripulado, capaz de automatizar cualquier tarea a cualquier distancia y profundidad y con capacidad autónoma (programación de agentes y de inteligencia artificial) para tomar decisiones durante la navegación, pero incapaz de introducirse por los recovecos en los que no cabe, es decir, incapaz de navegar sin sus correspondientes metadatos. Para sus detractores, sin embargo, el Web Semántico promete demasiadas cosas irrealizables a´ un hoy en d´ıa, y es en realidad más asimilable al uso de una red de transitables t´ uneles construidos debajo del fondo del mar (como el Eurotunel que atraviesa el canal de la Mancha). En ambos casos se requiere la construcción de rutas de navegación (por las que quepa el submarino) o transitables t´ uneles adaptados al fondo marino, que sean asimilables a los metadatos adaptados al sitio Web al que describen. Estos metadatos act´ uan como gu´ıas de la navegación, indicando por dónde navegar y por dónde no y cuál es el camino que hay que tomar en cada bifurcación para llegar a un destino. Finalmente, cuando se necesita recorrer grandes distancias, acceder a grandes profundidades e introducirse por peque˜ nos recovecos en los que no cabe un enorme submarino, y no se dispone de metadatos, lo habitual es recurrir a soluciones como los peque˜ nos batiscafos no tripulados y teledirigidos, costosos, pero capaces de recorrer cualquier ruta. La tabla 1.3 contiene un resumen de estas comparaciones aclarativas.

Gen´ erica no adaptada

Gen´ erica adaptada

Particularizada

Ejemplos

Browsers, robots

Web Sem´ antico

Wrappers

Medicina

T´ e verde, aspirinas, ...

Medicaci´ on con receta, fisioterapia, ...

Cirug´ıa

Deep Web

Buzo, barcos

Red de t´ uneles bajo el mar, submarino

Batiscafo no tripulado

Coste

Bajo

Medio/alto

Alto

Cuadro 1.3: Comparaciones aclarativas de alternativas de navegación seg´ un coste

19

Las tareas que los usuarios necesitan automatizar en el Web pueden llegar a ser bastante complejas. Sólo aquellos programas capaces de manipular adecuadamente los datos que aparecen en los documentos visitados pueden servir al usuario para automatizar sus tareas en el Web. Dado que la mayor´ıa de las tareas realizables por las aplicaciones de navegación genérica no adaptada son demasiado simples y que el Web Semántico es a´ un una tecnolog´ıa realmente incipiente, la principal alternativa utilizable actualmente consiste en la creación de programas de navegación particularizada a los sitios Web. La navegación basada en wrappers ha sido sin duda la que más aportaciones ha realizado u ´ltimamente a la automatización de complejas tareas en el Web, en donde ha demostrado en repetidas ocasiones ser aplicable de forma fruct´ıfera [67]. Si bien los contextos semánticos (ver tabla 1.6) basados en metadatos declarativos pueden a´ un tardar tiempo en ser efectivos, es constatable que los contextos semánticos embebidos en las sentencias de programación que forman parte del código de un wrapper son una poderosa arma de automatización. Por otro lado, si bien la construcción dinámica de caminos de navegación guiados por el cumplimiento de objetivos resulta impracticable sin la existencia de metadatos, la construcción estática, pero flexible para ganar robustez, de caminos pre-programados de navegación donde no sea necesaria la existencia de metadatos que indiquen los enlaces que se deben seguir, puede servir como base para la automatización de tareas que manejen aplicaciones accesibles desde el Web.

1.3.4.

Modos de integraci´ on de aplicaciones Web

Cuando se desea automatizar tareas que involucran a más de una aplicación Web, dos modos de integrarlas suelen ser los más empleados. Integraci´ on de aplicaciones similares Es normal encontrar aplicaciones de diversos servidores que, siendo semánticamente similares porque están concebidos para fines parecidos, desde el punto de vista del marcado de sus páginas, son estructuralmente distintas. Normalmente, se trata de aplicaciones que, aunque pueden tener peque˜ nas diferencias entre s´ı, ofrecen una funcionalidad similar al usuario, cada una accesible desde su propio servidor. Es por ello que el usuario puede tener que conectarse simultáneamente a varias de ellas a la vez, escogiendo sobre la marcha, qué acciones desea ejecutar en ciertas aplicaciones y qué otras acciones desea ejecutar en otras. Agentes de bolsa, personas con varias cuentas 20

de correo electrónico o con varias cuentas bancarias, personas que manejen varios sitios de subastas en el Web o que quieran simplemente buscar las mejores ofertas en varias tiendas suelen tener que abrir varias ventanas, una para cada una de estas aplicaciones, y operar con todas ellas a la vez.

Integraci´ on de aplicaciones complementarias

Por otro lado, también resulta frecuente encontrarse con tareas que involucran el intercambio de datos entre varias aplicaciones construidas de forma independiente unas de otras, pero que no estén integradas convenientemente, por lo que la u ńica forma de manejarlas sea manipulando los formularios propios de acceso a la herramienta. Ante esta situación, los usuarios t´ıpicamente deben conectarse a alguna de ellas y, tras analizar los datos obtenidos de ésta, enviar esos mismos datos, quizá con alguna variación, a otra herramienta, rellenando con el teclado y el ratón su correspondiente formulario. Eso suele ocurrir en entornos donde, por ejemplo, una aplicación se dedica a recoger peticiones de muchos usuarios y, antes de procesarlas convenientemente, un supervisor debe darles el visto bueno, reinsertando esos datos en otra aplicación junto con alguna información adicional. En ese caso, el supervisor, si las herramientas no se han integrado convenientemente, puede tener que estar copiando los datos de una ventana de la primera herramienta y pegándolos en una ventana de la segunda herramienta. Otro ejemplo distinto, pero con el mismo planteamiento operativo, se puede encontrar en personas que deban enviar por alguna aplicación Web de correo electrónico determinados fragmentos de documentos que una primera aplicación les pueda estar mostrando en otra ventana. Sin duda, las tareas realizables pueden llegar a ser ciertamente impensables para los dise˜ nadores de las aplicaciones Web accedidas, pues son los usuarios quienes mejor definen la forma en la que desean hacer sus tareas. Por ejemplo, una persona puede desear responder desde el correo que tiene en Yahoo! los correos electrónicos que le lleguen a su cuenta de correo en Hotmail, porque no desee responder directamente desde all´ı. En este caso, los formularios de Yahoo! deberán recibir información, no sólo del usuario, sino de la proporcionada por Hotmail, de la misma forma en la que un usuario que realizara esa tarea hubiera copiado y pegado ese texto desde la ventana de una aplicación a la ventana de la otra. 21

1.3.5.

Sistemas mediadores

Los datos semiestructurados, que aparecen detallados en el apartado 1.4.7, aunque primordialmente se encuentran en la inmensa multitud de páginas HTML disponibles dentro de todo el Web, también pueden encontrarse con frecuencia en abundantes fuentes de datos dentro de entornos corporativos de tama˜ no mediano o grande. Precisamente por ello, son numerosas las empresas que presentan actualmente necesidades de poder integrar, no ya en un u ńico documento, sino quizá también en la toma de decisiones operativas de la empresa, los datos provenientes de varias de esas fuentes de datos preexistentes, de la misma forma en la que es necesario realizar tareas que combinen la información obtenida de distintas fuentes en el Web. Si bien es habitual que cada una de esas fuentes fuera desarrollada en su momento con distintas tecnolog´ıas y objetivos, lo cierto es que la gran mayor´ıa de ellas fue concebida para ser accedida de forma que la información resultante de cada una de ellas fuera a ser consultada directamente, bien por personas, bien, en el mejor de los casos, pese a su enorme coste, por otras aplicaciones capaces de realizar llamadas a una interfaz particular de la aplicación. Las nuevas formas de negocio de hoy en d´ıa y la necesidad de manipular mucho más eficientemente grandes vol´ umenes de información de fuentes muy diversas han contribuido ineludiblemente a una necesidad cada vez mayor de que esas consultas a los antiguos sistemas aislados preexistentes puedan estar ahora integradas en otras consultas realizadas por nuevos programas capaces de combinar eficientemente la información que pueda estar distribuida en varios repositorios independientes entre s´ı. De esta forma, los datos relevantes se pueden considerar como provenientes de fuentes semi-estructuradas [66], esto es, con un formato reconocible más allá del simple texto sin estructura, si se tienen en cuenta precisamente combinaciones especiales de etiquetas de marcado que son capaces de identificar a los datos clave que deben extraerse de las páginas. Un foco importante de investigación en la actualidad es la construcción de sistemas capaces de integrar de manera sencilla datos semiestructurados heterogéneos y dispersos de m´ ultiples fuentes accesibles por medios telemáticos de forma que se obtenga de los mismos una visión similar a la proporcionada por una u ńica base de datos convencional. La idea de este enfoque consiste en ocultar todo tipo de heterogeneidad de cada una de las fuentes de datos accedidas de forma que al usuario se le proporcione una u ńica visión global de todo el sistema y pueda manipular cada uno de los recursos de la red de una forma uniformizada, pese a que cada sistema trabaje en realidad de 22

forma distinta y tenga sus propias particularidades sintácticas. Los sistemas Datawarehouse, basados en la replicación de información a un repositorio com´ un [68, 92] usados en entornos cerrados desde hace tiempo, no son adecuadamente escalables para ser usados en el Web. Quizá la aproximación arquitectural más utilizada hasta el momento para este tipo de sistemas sea la de los sistemas mediadores [79, 101]. En ella, los datos permanecen en sus fuentes originales y un sistema intermedio, llamado mediador, se encarga de proporcionar a lo usuarios la ilusión de que existe una u ńica fuente en la que se encuentran todos los datos combinados y unificados de manera coherente de acuerdo a un u ńico esquema global. Cuando el mediador recibe una consulta sobre el esquema global, ésta se reformula en diversas subconsultas que se realizan directamente sobre las fuentes originales. La interacción directa con las fuentes es delegada por el mediador a los llamados programas envoltorio (o wrappers), cada uno de ellos especializado en el diálogo concreto con cada servidor. Estos se encargan de recibir las peticiones del mediador, traducirlas como subconsultas ajustadas al formato particular de cada fuente, ejecutarlas sobre la misma y obtener los resultados, devolviéndoselos al mediador. Es entonces cuando los resultados de las fuentes son reestructurados por el mediador para ajustarse al esquema global y ser devueltos entonces al usuario. De esta manera, éste obtiene la impresión de estar consultando un u ńico sistema. Este esquema se encuentra representado en la figura 1.1.

Figura 1.1: Sistema mediador La motivación de la construcción de este tipo de sistemas se encuentra tanto en los planes estratégicos a nivel corporativo dentro de una organización, como a nivel de servicios utilizables por personas de forma individual. Las organizaciones se encuentran, por un lado, con que su operativa genera 23

una cantidad de información enorme, que es dif´ıcil de gestionar, y a la que es complicado, cuando no imposible, sacar el máximo partido. Por otro lado, diversos factores, como la rápida evolución tecnológica, las presiones del mercado o el efecto de la competencia entre diferentes proveedores de soluciones técnicas, han causado que los entornos y las tecnolog´ıas utilizadas para la generación y manejo de estos datos difiera en gran medida a lo largo del tiempo, creando as´ı, a lo largo de los u ´ltimos a˜ nos, un escenario donde grandes vol´ umenes de información se encuentra dispersa en fuentes independientes y heterogéneas, cuyos datos necesitan ahora más que nunca ser combinados y unificados. Son muchas las organizaciones que están desarrollando o tienen planes de desarrollar sistemas capaces de proporcionar visiones unificadas de los datos manejados por la organización. Los problemas a los que los sistemas mediadores se han venido enfrentando en los u ´ltimos a˜ nos son extrapolables a la realización de muchas tareas en el Web. Muchos de las aplicaciones construidas en las intranets de los sistemas corporativos a lo largo de los u ´ltimos a˜ nos han sido creadas con interfaces para el Web. Es por ello que los sistemas mediadores se han visto u ´ltimamente cada vez más abocados a la automatización de tareas en las aplicaciones de las intranets de estas corporaciones. A pesar de que el n´ umero de posibles tareas automatizables en el Web es mayor que las realizables en las intranets de las aplicaciones corporativas, los sistemas mediadores, impulsados por las necesidades de estas corporaciones, no han dejado de ser un importante exponente de la necesidad de automatizar el tratamiento de datos obtenible de aplicaciones accesibles desde el Web.

1.3.6.

Asistentes de navegaci´ on Web

Para automatizar tareas en el Web se necesitan programas capaces de eliminar la necesidad de que el usuario deba interactuar incansablemente con el ordenador durante la ejecución de la tarea. En lugar de solicitar que, durante la navegación, el usuario active el seguimiento de cada enlace que se desea visitar, se deben preprogramar todas esas activaciones en un algoritmo, de forma que queden as´ı expl´ıcitamente la selección preaprobada de los enlaces que se seguirán durante la ejecución de la tarea. El resultado de ese algoritmo normalmente consistirá en presentarle al usuario sólo los datos (resultados, confirmaciones, ...) que a éste le interesan, evitando, en lo posible, mostrarle toda aquella información irrelevante para su tarea. El programa capaz de automatizar de esta forma las tareas del usuario conforme a sus intereses se denomina asistente de navegaci´ on Web. En la figura 1.2 aparece es24

quematizada la diferencia entre la tradicional navegación manual basada en browsers y la navegación basada en asistentes de navegación Web. Con un asistente de navegación Web, se persigue sustituir al browser y al usuario que lo maneja por un u ńico programa capaz de automatizar una tarea de forma que los servidores Web involucrados presten a la aplicación el mismo servicio que prestar´ıan a un usuario que realizara esa tarea con un browser.

Figura 1.2: Comparación de navegación manual con automática

1.4.

Caracter´ısticas de los datos del Web

Para procesar datos automatizadamente hay que tener en cuenta las principales caracter´ısticas de los datos cuyo tratamiento se pretende automatizar. A continuación se presentan algunas de las principales caracter´ısticas de los datos del Web.

1.4.1.

Voluminosidad

En las u ´ltimas décadas las nuevas tecnolog´ıas han permitido la creación, recopilación y publicación de grandes vol´ umenes de información accesible en una amplia diversidad de formatos y mediante una amplia gama de medios de acceso telemáticos. Por otra parte, muchas aplicaciones ya existentes en las intranets de muchas organizaciones han sido reconvertidas para poder ser accedidas ahora desde el Web, mediante un mayor n´ umero de terminales. Esto ha llevado, por otra parte, a la aparición de un gran n´ umero de aplicaciones que, siendo accesibles desde cualquier punto del planeta mediante el Web, a través de sus interfaces basadas en formularios, proporcionan al Web una enorme cantidad de información para la que no existen apenas medios adecuados de manipulación. 25

1.4.2.

Heterogeneidad

El Web es un ente tremendamente heterogéneo, lo cual ha implicado una gran dificultad a la hora de manejar adecuadamente los grandes vol´ umenes de información dispersa en el Web. La proliferación de fuentes de información desarrolladas de forma totalmente independiente unas respecto de las otras ha llevado a un escenario en el que mucha información potencialmente u ´til para las necesidades particulares de muchos usuarios esté dispersa y almacenada seg´ un esquemas y estructuras de almacenamiento con grandes heterogeneidades. Debido a la intr´ınseca naturaleza abierta en el Web, los contenidos de la misma se muestran débilmente estructurados y, cuando lo están, su esquema es enormemente heterogéneo, presenta irregularidades, y sigue muy pocas restricciones. Otra peculiaridad del Web actual es el hecho de que la inmensa mayor´ıa de su información es legible para las personas, pero no lo es para las máquinas, por lo que su tratamiento automatizado se encuentra con importantes problemas. La heterogeneidad de las Webs de las empresas supone a´ un mayores problemas cuando se las pretende interconectar con las de sus clientes o proveedores u otros canales de comercialización.

1.4.3.

Orientaci´ on a los visualizaci´ on

Una de las grandes barreras a la automatización en el Web actual (no tanto por los principios en los que se fundó, sino por el uso que se le ha ido dando después) es que está muy orientado a la visualización. La gran mayor´ıa de los dise˜ nadores no han concebido sus páginas para ser procesadas por otro tipo de aplicaciones distintas a los browsers. Es más, tampoco resulta extra˜ no que algunos dise˜ nadores hayan concebido sus páginas para que sean navegadas exclusivamente desde ciertos browsers concretos, excluyendo, en ocasiones sin saberlo, en otras intencionadamente, la navegación de otros tipos de programas como las que aparecen en la tabla 1.2. La actual orientación a la visualización en el Web no es un problema en s´ı mismo para la accesibilidad si esa orientación está basada en hojas de estilo. Sin embargo, quizá porque las hojas de estilo nacieron algo más tarde que el propio Web y a´ un no tienen un soporte completo en muchas herramientas, tradicionalmente las páginas han reflejado su orientación a la visualización en el propio marcado HTML de sus páginas. La gran mayor´ıa de los sitios Web actuales centran a´ un el uso de su marcado HTML en aspectos primordialmente visuales (tama˜ nos y tipos de letra, colores, alineamientos, espaciados, distribución por la pantalla, imágenes, ...), muchos de ellos enfocados para impactar visualmente al usuario que use uno de los browsers 26

gráficos admitidos por el dise˜ nador del sitio Web. A pesar de que iniciativas como las de las hojas de estilo CSS bien permiten independizar a HTML de esa orientación a la visualización, buena parte del marcado HTML que se usa en las páginas de millones de aplicaciones accesibles desde el Web, creadas a lo largo de los u ´ltimos a˜ nos, está a´ un orientado a estos fines. As´ı, en lugar de un Web en la que cualquier página HTML pueda ser navegable desde cualquier browser y dispositivo de acceso, donde las distintas peculiaridades de cada uno estén contempladas en distintas hojas de estilo, cada una de ellas adaptada a un tipo distinto de terminal, el Web actual adolece de un grave problema de orientación a un reducido n´ umero de browsers, puesto que los usuarios que utilizan otros tipos de programas de acceso distinto a esos browsers, no tienen un adecuado acceso a los contenidos que desean visitar. Para muchos usuarios, son muchas las páginas inaccesibles, donde determinados contenidos dejan de ser visibles y muchas aplicaciones accesibles desde el Web dejan de ser funcionales simplemente por el hecho de que se acceda a ellas con browsers no considerados por el dise˜ nador del sitio Web. Por ejemplo, resulta habitual el hecho de que se visualicen enlaces que sin embargo no se pueden pulsar (tienen una capa invisible encima que lo impide), textos que quedan ilegibles por aparecer superpuestos unos sobre otros, o incluso servidores que, siendo en realidad visitables, discriminan seg´ un el agente de usuario empleado y acaban redirigiendo a la portada del Web o a una página de error en la correspondiente respuesta a toda petición en la que no se acompa˜ ne la identificación del browser esperado en ese Web. En muchos sitios, la navegación basada en browsers sobre terminales tipo texto, como Lynx [10] resulta impracticable. Incluso la navegación basada en browsers gráficos resulta impracticable en muchos sitios Web si no se tiene activada alguna funcionalidad especial que el dise˜ nador del sitio Web consideró como necesaria, como son las cookies, las rutinas JavaScript [74], las imágenes, o las animaciones en Flash u otros formatos. A ello hay que a˜ nadir la escasez práctica de descriptores textuales adecuados en numerosos componentes de las páginas, como los scripts, los applets, los plugins, los frames o los controles ActiveX, muchos de los cuales sólo resultan funcionales en determinados browsers, pero no en otras aplicaciones.

Accesibilidad Iniciativas de mejora para la accesibilidad, como las publicadas por el W3C en sus recomendaciones [128, 137, 136], están encontrando u ´ltimamen27

te un decidido apoyo en numerosas personas e instituciones para conseguir que el acceso a los contenidos Web sea funcional con independencia de cual sea la plataforma de acceso, tanto hardware como software. Estas recomendaciones u ´ltimamente hacen especial hincapié en poco costosas, pero efectivas mejoras de acceso al Web por parte de, tanto browsers espec´ıficos usados por personas discapacitadas, como los recientes terminales inalámbricos con pantallas de reducidas dimensiones y escasa capacidad de procesamiento o ancho de banda limitado, tales como teléfonos móviles, asistentes personales o peque˜ nos electrodomésticos. La correcta operatividad con independencia del browser utilizado o del dispositivo de acceso escogido es una de las gran´ des necesidades del Web actual. Ultimamente, el cada vez mayor n´ umero de formas de acceso ha puesto a´ un más de manifiesto el serio problema de accesibilidad existente en el Web, como lo demuestra el hecho de que los nuevos dispositivos sean incapaces de acceder adecuadamente a las páginas del Web legado. Este problema ha permanecido disimulado por el importante dominio de Microsoft Internet Explorer como browser más utilizado en los u ´ltimos a˜ nos. No obstante, numerosas iniciativas de mejora, como las del W3C y otras [109, 106, 96, 121] han sido propuestas para aportar soluciones. Dentro de las recomendaciones del W3C se enumeran varios tipos de programas de navegación, mucho más allá de los habituales browsers gráficos. El objetivo de estas recomendaciones es la de permitir el correcto acceso al Web desde terminales en modo texto, software espec´ıfico de navegación para personas con visión discapacitada que presentan al usuario las páginas en Braille o en audio, as´ı como desde terminales de reducidas dimensiones, con peque˜ nos displays como los cada vez más habituales dispositivos inalámbricos, y muchos más. El objetivo principal de estas iniciativas consiste en que las páginas publicadas en el Web sean accesibles a sus usuarios independientemente del dispositivo de acceso empleado por cada uno de ellos. Una de las ideas principales de estas iniciativas de mejora consiste en reducir al m´ınimo el uso del marcado HTML que esté orientado a la visualización, delegando esa tarea en las hojas de estilo y simplificando as´ı el marcado estructural de las páginas. En la tabla 1.4 pueden contemplarse las principales diferencias entre las distintas versiones de HTML surgidas en los u ´ltimos tiempos, desde los puntos de vista de la orientación a la visualización y a la accesibilidad.

Resulta curioso destacar en este punto cómo los sitios Web que más éxito han cosechado en los u ´ltimos tiempos (Google, Yahoo, eBay, EasyJet ...) suelen tener como caracter´ıstica com´ un el hecho de que no hacen apenas 28

HE = Hojas de estilo

HTML sin HE

HTML con HE

XHTML o XML

Orientaci´ on a la visualizaci´ on

En HTML

En hoja de estilo

En hoja de estilo

Accesibilidad por terminales

Baja

Media

Alta

Regularidad estructural

Orientaci´ on visual

Sencilla

Sencilla

Modificaciones en la estructura

Habituales

Escasas

Ínfimas

Reglas de construcci´ on

B´ asicas

B´ asicas

Tipo de documento

Automatizaci´ on de tareas

Dif´ıcil

Media

F´ acil

Difusi´ on relativa en el Web

Alta

Baja

Muy baja

Cuadro 1.4: Principales diferencias entre las u ´ltimas versiones de HTML uso de tecnolog´ıas que mermen la accesibilidad de sus páginas. Sin embargo, la escasa implantación práctica de las normas y recomendaciones del W3C durante muchos a˜ nos hace prever que la transición hacia un Web accesible para browsers de distintos terminales será a´ un lenta, en cuanto a la inercia del Web está asentada en su gran tama˜ no y en la tradicional escasa orientación de dise˜ nadores y herramientas a estos aspectos. La orientación del Web a los browsers como u ńicas herramientas de acceso es la razón de que el Web sea a´ un muy abundante en páginas que no sólo no cumplen las reglas de la recomendación oficial de XHTML, sino que ni tan siquiera cumplen muchas de las reglas de las recomendaciones anteriores de HTML.

1.4.4.

Relevancia dependiente de la tarea

Por datos relevantes se debe entender, no sólo aquella información espec´ıfica que está siendo buscada y que forma parte de los resultados que, quizá tras alg´ un procesamiento, se le deben proporcionar al usuario al finalizar la tarea, sino, en general, todos aquellos datos que puedan ser utilizables en alg´ un momento dentro de ese proceso de navegación. Ejemplos de datos relevantes son las direcciones de las páginas que se deben visitar, los campos de formularios que se deben rellenar, o quizá incluso simples campos que aparecen en las páginas en función de cuyos valores se puede tomar la decisión de seguir uno u otro enlace o efectuar una u otra acción definible por el usuario. No toda la información de cada página Web es igualmente relevante. Es com´ un que, para una tarea particular, de una sola página apenas interese un dato, un determinado enlace o un formulario concreto y los demás datos de la página puedan ser felizmente ignorados. La relevancia de cada información, por otra parte, no se puede considerar en términos absolutos. La relevancia de un dato depende de la tarea concreta que se desee realizar, es decir, de los objetivos por los cuales la página que contiene el dato ha sido consultada. 29

Por ejemplo, dentro de un mismo documento, para una tarea concreta, puede ser interesante un enlace, mientras que para otra tarea, puede serlo otro enlace completamente distinto. Para ciertas personas, determinada información puede ser considerada como relevante, mientras que, para otras, pese a que tengan propósitos similares, esa misma información puede no serlo. En cualquier caso, dicha información, relevante o no, es presentada al usuario t´ıpicamente embebida en páginas Web que, estando escritas en HTML para su visualización en browsers, no están, sin embargo, orientadas para ser procesadas por otro tipo de aplicaciones capaces de manipular esa información automáticamente. Es decir, las páginas HTML están construidas para ser visualizadas, pero no para ser comprendidas por máquinas. El problema de la integración de datos del Web en aplicaciones, esto es, de su automatización, ha sido abordado de manera muy activa por investigadores de diferentes comunidades y disciplinas, tales como la Telemática, la Miner´ıa de Datos o la Inteligencia Artificial, realizándose en los u ´ltimos a˜ nos importantes contribuciones desde diferentes puntos de vista.

1.4.5.

Regularidad estructural

Las bases de datos, que almacenan su información de forma estructurada, al volcar sus contenidos en páginas Web, suelen conservar en ese volcado cierta regularidad, denominada estructural, en el marcado HTML de los datos volcados. Distintos datos conviviendo bajo la misma férrea estructura de una base de datos acaban siendo volcados al Web con similares etiquetas HTML, por lo que conservan una cierta regularidad estructural en sus marcados. Un ejemplo de ello puede verse en la figura 1.3, donde se muestra parte del código de una página Web que contiene los resultados de una b´ usqueda en Google. El hecho de que exista una regularidad estructural en las páginas HTML publicadas en un mismo servicio (aplicación accesible desde el Web o conjunto de páginas lógicamente enlazadas para un fin com´ un y publicadas bajo una misma estructura) tiene un inmenso valor para la extracción de datos del Web. La regularidad estructural puede ser usada para identificar unos datos respecto de otros. Sin embargo, el hecho de que dicha estructura no sea expl´ıcita (como s´ı lo es el esquema de una base de datos), sino impl´ıcita, permite que los sitios Web puedan cambiar en cualquier momento sus estructuras de marcado HTML sin apenas contemplaciones. Además, la estructura supuestamente regular de los sitios Web puede presentar irregularidades con frecuencia. Por ejemplo, es habitual que en el catálogo electrónico de una tienda todos los art´ıculos contengan datos como precios, descripciones o marcas, 30

Figura 1.3: Regularidad en el Web

pero puede ocurrir que algunos pocos de esos art´ıculos vengan acompa˜ nados además de un indicativo promocional de oferta, que otros art´ıculos no poseen. Es precisamente la posibilidad que HTML ofrece para realizar m´ ultiples y flexibles combinaciones de marcado de sus etiquetas sin apenas restricciones, una de las razones por las que el Web de hoy en d´ıa resulta tan heterogéneo a simple vista, pese a que los principios de su funcionamiento sean en realidad sencillos. Es precisamente esa combinación de sencillez y flexibilidad, carentes en el mundo de las bases de datos, una de las principales razones que han encumbrado a HTML como el formato por excelencia de los documentos en el Web. Reconocer esta regularidad estructural en una página permite extraer sus datos relevantes. Existe una gran necesidad actualmente de aplicaciones que puedan integrar la información semiestructurada de varias fuentes diversas preexistentes. La heterogeneidad de la forma de marcar datos en cada fuente hace necesario muchas veces un pretratamiento particularizado consistente en adaptar los datos provenientes de diversas fuentes a un formato com´ un. Una vez estructurados todos los datos en un formato com´ un, éstos pueden ser procesados adecuadamente sin tener en cuenta su procedencia. Esto suele ser necesario en procesos de integración de información proveniente de distintos servidores cuya forma de acceso no es posible que sea modificada. Ello 31

suele ocurrir muchas veces en el Web en general, o, a menor escala, en los servidores localizados en la intranet de una empresa, donde es primordial que los sistemas sigan funcionando para las personas y herramientas que los llevan usando sin necesidad de ser interferidos por el hecho de que una nueva herramienta de acceso se incorpore al sistema informático preexistente.

1.4.6.

Ausencia de sem´ antica en el marcado

Cualquier dato que aparezca en una página HTML no puede distinguirse fácilmente de forma automatizada. Por ejemplo, un dato numérico, no puede reconocerse fácilmente como un precio, una cantidad, una fecha o un n´ umero de referencia por la sencilla razón de que en el marcado HTML del Web actual no se distingue entre unos tipos de datos respecto de otros. Por otro lado, prácticamente casi cualquier combinación de etiquetas HTML puede usarse indistintamente para marcar unos datos u otros, razón por la que acaba siendo el usuario quien, aplicando sus conocimientos contextuales en la navegación, infiere la semántica de esos datos al visualizarlos en la pantalla. Esto es algo que ocurre cuando se navega con un browser. En la navegación manual se debe tomar muchas veces la decisión de pulsar en uno u otro enlace o la de rellenar un formulario en lugar de otro, o la de rellenar cierto campo de una forma en lugar de cierta otra dependiendo de los datos visualizados hasta el momento en la pantalla, pero que el ordenador no es capaz de distinguir respecto del resto de los datos visualizados porque HTML es un lenguaje de marcado poco orientado a la descripción semántica y con un uso muy orientado a la visualización.

1.4.7.

Niveles de estructuraci´ on

Tradicionalmente, en el campo de la documentación, se ha distinguido entre datos estructurados y datos no estructurados. Los datos no estructurados son aquellos que no presentan ning´ un esquema o estructura más allá de la mera secuencia de bytes o palabras. Los datos estructurados son aquellos que siguen un esquema de datos perfectamente definido (e.g. aquellos contenidos en bases de datos). El esquema que define la estructura de un conjunto de datos estructurados suele incluir férreas restricciones sobre los mismos, tales como un fuerte tipado de datos, restricciones en los rangos posibles de valores admitidos para ciertos datos, unicidad, cardinalidad de las repeticiones, limitaciones en el tama˜ no o posibilidad de impedir la existencia de campos con valores nulos. 32

Datos no estructurados Un ejemplo t´ıpico de datos no estructurados son los textos libres. Debido a su escasa o prácticamente nula estructura, la u ńica manera posible de recuperar información de estos documentos es mediante consultas no estructuradas o imprecisas, tales como las b´ usquedas por palabra clave. Con este tipo de consultas sólo es posible representar expresiones que recuperen aquellos documentos en los que aparece el conjunto de palabras clave buscadas. Es habitual en este tipo de consultas la posibilidad de utilizar operadores lógicos para combinar expresiones simples. Básicamente, éste es el sistema de datos en el que se basan los buscadores de Internet como Google o Altavista. Si bien este tipo de consultas son sencillas de realizar y existe un gran n´ umero de trabajos e importantes contribuciones a este respecto [28], lo habitual es que este tipo de soluciones trabajen con un nivel de granularidad demasiado grueso (el documento), frente a lo que muchas veces en realidad se necesita (el dato). Los muy bien conocidos buscadores como Google o Altavista consideran el Web como un gran repositorio de información no estructurada y son capaces de construir gigantescos ´ındices sobre el Web, permitiendo su consulta de forma eficiente. Sin embargo, para un cada vez mayor n´ umero de usuarios que encuentran la necesidad de realizar consultas más especializadas, esta abstracción del Web como un conjunto de información no estructurada es demasiado débil, ya que, a fin de cuentas, no sirven para nada más que para localizar documentos que tengan las palabras consultadas, no para obtener el dato en s´ı que en realidad buscan, ni tampoco para automatizar el uso de aplicaciones manejables desde formularios.

Datos estructurados Los datos estructurados son aquellos que presentan un esquema r´ıgido y bien definido para los datos. Un ejemplo t´ıpico de fuente estructurada de datos son las bases de datos relacionales. En este caso existe un diccionario de datos que define la organización interna y las restricciones de los datos, as´ı como de las relaciones entre los mismos. Cuando los datos se encuentran en forma estructurada, es posible realizar consultas precisas mediante lenguajes de consulta estructurados, de los cuales el más popular es SQL [78]. Esta precisión a la hora de hacer consultas hace que los datos estructurados sean muy adecuados para su tratamiento por programas de ordenador. 33

Datos semiestructurados Al contrario de los datos estructurados, los datos del Web carecen de todas estas restricciones y pertenecen a una categor´ıa distinta. Esa categor´ıa de datos ha recibido el nombre de datos semi-estructurados [36]. Los datos semiestructurados se caracterizan porque, aunque siguen alg´ un tipo de esquema, el seguimiento que hacen del mismo es mucho menos r´ıgido que en el caso de los datos estructurados. Seg´ un [60], las principales caracter´ısticas de los datos semiestructurados son: El esquema de datos no es expl´ıcito, esto es, no es conocido de antemano. Puede existir, pero estará, en todo caso, impl´ıcito en los datos y cualquier restricción asumible de ese esquema deberá inferirse de ellos de alguna manera. El esquema de datos está sujeto a cambios y puede cambiar con frecuencia. No existen impedimentos para que esto pueda ocurrir en cualquier momento. El esquema tolera irregularidades que no siempre aparecen especificadas. No existe un tipado fuerte de los datos individuales, por lo que es posible encontrar en ocasiones valores de tipos diferentes a los esperados. Por ejemplo, para un mismo tipo de dato consultado, es posible que éste aparezca en varios formatos distintos. Sin tener la programabilidad de una férrea base de datos en la que es fácil asumir decisiones semánticas acerca de los datos, su bajo coste de creación las ha convertido en poco tiempo en la alternativa usada por excelencia para la publicación de datos en el Web. Sin embargo, la gran mayor´ıa de la información accesible por el Web no presenta un nivel de estructuración tan fuerte, pese a que ser´ıa deseable poder manipularla eficazmente. En muchas ocasiones, especialmente en el caso de bases de datos accesibles desde el Web, la estructura de marcado HTML en la que esos datos se ven incrustados hace perder fácilmente la visión de esa estructura férrea. HTML es un buen formato para ser visualizado en navegadores. Sin embargo, su estructura no está orientada a la descripción de los datos, sino a su visualización. Téngase en cuenta, que en el proceso de transformación de la información desde repositorios estructurados a formatos visualizables, se produce una pérdida de estructuración que, a lo largo de los u ´ltimos a˜ nos, las diversas aplicaciones que volcaban al Web los contenidos de las bases de datos, han venido 34

produciendo sin demasiados reparos. Es ahora, con un Web lleno de contenidos inmanejables eficazmente, cuando los métodos para reestructurar la información del Web son más necesarios. HTML es el lenguaje de marcado en el que se encuentran embebidos mayoritariamente los datos del Web. Apenas los Web Services [53] y unos pocos y marginales (comparativamente con el inmenso tama˜ no del Web) segmentos de negocio usan XML como formato de intercambio de datos. Algunos más son los sitios que aparecen publicados en XHTML [117]. Muy al contrario de los documentos XML, las páginas HTML se caracterizan porque su estructuración está atada a muy pocas reglas. La gran mayor´ıa de ellas son reglas elementales de construcción, sin que las reglas lógicas de estructuración propias del ámbito de conocimiento del documento queden bien reflejadas en su marcado estructural. Este marcado, por el contrario, s´ı suele contener una elevada carga de aspectos orientados a la visualización. Esta débil estructuración de las páginas puede ser cambiada fácilmente en cualquier momento, pues no existe un esquema de datos expl´ıcito que deba regir la estructura de las páginas. Por todos estos motivos, los documentos HTML pueden ser considerados como datos semiestructurados. La tabla 1.5 presenta un resumen de las principales diferencias entre las caracter´ısticas de los datos seg´ un sus distintos niveles de estructuración. Datos no estructurados

Datos estructurados

Datos semi estructurados

Esquema de datos

Inexistente

Expl´ıcito

Impl´ıcito

Restricciones

Inexistentes

F´ erreas

Laxas

Irregularidades

Inexistentes

Prohibidas

Abundantes

Cambios de estructura

Inexistentes

Prohibidos

Habituales

Consultas

Imprecisas

Precisas

Poco precisas

Ejemplo

Texto plano

Base de datos

P´ agina Web

Coste de creaci´ on

Bajo

Alto

Bajo

Uso

Medio

Bajo

Muy alto

Cuadro 1.5: Diferencias entre caracter´ısticas de los datos seg´ un su nivel de estructuración

1.4.8.

Distribuci´ on de la informaci´ on

Los datos que aparecen en el Web y son necesarios para una tarea no suelen aparecer todos integrados en un mismo documento, sino que suelen 35

aparecer distribuidos en varios de ellos por cuestiones organizativas. As´ı pues, información que necesita ser combinada para realizar una tarea puede encontrarse distribuida de muy diversas formas: Entre los documentos de diversos sitios Web, como por ejemplo informaciones complementarias de restaurantes en distintos portales de ocio. Entre los documentos individuales integrantes de otros documentos multimedia, como por ejemplo las diversas páginas que formen un mismo frameset. Entre diversas páginas enlazadas entre s´ı, como por ejemplo, los derivados de la paginación de resultados de b´ usqueda. Mezclada dentro de una misma página con información no relevante para la tarea, como por ejemplo, la publicidad y otras informaciones no relevantes para la tarea.

1.4.9.

Dif´ıcil modificabilidad

Los programas creados para navegar automáticamente en el Web, deben, por lo tanto, afrontar el problema del manejo de información semiestructurada, corriendo el peligro de ver modificada, sin previo aviso, la estructura de las páginas que se desea visitar. En el caso de la integración de aplicaciones accesibles desde el Web, éstas deben ser tratadas con sumo cuidado y respeto para no interferir en el correcto funcionamiento de las tareas realizadas por otros mecanismos, t´ıpicamente browsers, que otros usuarios estén llevando a cabo. La mejor forma de integrar estas aplicaciones legadas suele consistir, no en modificarlas para que contemplen una nueva herramienta de acceso, sino en usar las interfaces que ya tengan desarrolladas, t´ıpicamente formularios en formato HTML, creando herramientas que emulen las herramientas de acceso preexistentes que hasta el momento han estado siendo usadas. En muchas ocasiones ello supone, si no un serio ahorro de costes, la u ńica opción aplicable.

1.4.10.

Aportaciones de XML

XML [132], concebido como una tecnolog´ıa para definir lenguajes de marcado propios para cada campo del conocimiento, aporta numerosas y significativas soluciones a la hora de estructurar los documentos de una forma 36

mucho más clara que la manera en la que HTML lo permite actualmente. Gracias a su mayor expresividad, y a su facilidad para ser procesado por programas no orientados a la mera visualización, el uso de XML se ha extendido rápidamente como solución al intercambio de datos estructurados en muy diversos ámbitos. Las principales cualidades de los documentos XML son las siguientes: Sintaxis f´ acilmente procesable XML presenta una sintaxis textual muy simplificada que permite estructurar fácilmente los documentos en forma de árbol. Al contrario de su predecesor SGML [65], los programas que procesan XML pueden ser muy fácilmente construibles debido a la simplicidad del formato, algo que sin embargo no le resta flexibilidad y extensibilidad para poder definir documentos complejos. Independencia de la presentaci´ on XML permite dotar fácilmente a los documentos de una estructura sintáctica que esté adecuada a la naturaleza propia del documento, prescindiendo absolutamente de la forma en la que éste pueda ser visualizado, labor que queda delegada en las hojas de estilo. Estructuraci´ on de datos Las etiquetas XML no definen propiedades acerca de cómo deben ser visualizadas, sino que simplemente describen los datos que contienen. Con el fin de dar una descripción formal a los posibles contenidos que puede tener una etiqueta dentro de un documento, XML incluye la posibilidad opcional de describir esas sintaxis mediante los DTD o XML Schema. Contexto sem´ antico Algo que no forma parte de la especificación de XML y para lo que a´ un no se ha definido formato estandarizado de representación es el contexto sem´ antico. Mediante un contexto semántico capaz de dotar de significados a cada una de las partes de esa estructuración sintáctica (etiquetas y atributos XML), es posible as´ı que cada uno de los datos que aparecen en un 37

documento pueda tener significado semántico para los usuarios. De esta forma, las distintas partes de los documentos pueden presentar un significado conocido y sin ambig¨ uedades, adecuado para ser entendible por las máquinas, algo que las páginas HTML que forman parte del Web actual no cumplen, pues están orientadas a la mera visualización. La tabla 1.6 refleja un resumen de las aportaciones que realiza cada una de las tecnolog´ıas mencionadas en este párrafo a los documentos estructurados en XML. Tecnolog´ıa

Aporta

Finalidad

Herramientas

XML

Sintaxis

Datos descritos

DTD, Schema, Relax-NG, ...

Hojas de estilo

Presentaci´ on

Documentos presentables

CSS, XSL, ...

Contexto sem´ antico

Sem´ antica

Documentos procesables

Metadatos RDF/OWL, programas ...

Cuadro 1.6: Resumen de aportaciones de XML

Sin embargo, siendo XML una buena opción, lamentablemente a´ un no es usada masivamente en el Web. Para ello resulta necesario un cierto consenso a la hora de escoger el lenguaje concreto de entre los m´ ultiples lenguajes existentes de un dominio de conocimiento para marcar adecuadamente los contenidos. Por otro lado, lo cierto es que XML apenas resuelve una parte del problema: la de la estructuración de los documentos y la posibilidad de asociar, gracias a un contexto que suele estar impl´ıcito en las personas, significados semánticos a cada una de esas partes estructuradas del documento. Sin embargo, XML no realiza aportaciones a la forma en la que esos documentos deben ser obtenidos de las fuentes de datos, algo que normalmente no se puede conseguir en un solo paso. Sin embargo, al igual que ocurre con la orientación a la accesibilidad e independencia del dispositivo de acceso, son numerosos los inconvenientes que permiten augurar que XML a´ un tardará mucho tiempo en ser una solución efectiva. Entre esos inconvenientes cabe destacar los siguientes: El uso de XML directamente en los browsers, como mero formato de visualización, acompa˜ nado, eso s´ı, de sus correspondientes hojas de estilo, no aporta ventajas sobre otros formatos para los que ya existen browsers, como HTML. El ya gigantesco tama˜ no del Web supone sin duda una gran inercia a la hora de acoger nuevas tecnolog´ıas. Ello implica que, aunque en determinado momento, XML pase por fin a ser la solución com´ unmente 38

aceptada por los servidores Web, la lentitud con la que se reajustarán las páginas de los servidores Web ya existentes implicará que el acceso a sitios Web basados en HTML seguirá siendo necesario durante mucho tiempo. Y a´ un as´ı, no es previsible tampoco que HTML llegue a desaparecer por XML, por lo que habrá un gran n´ umero de aplicaciones que no migrarán a XML. En cualquier caso, en la actualidad, tras cuatro a˜ nos después del nacimiento de XML, éste apenas se encuentra usado en unos pocos segmentos verticales de negocio, de una forma marginal si se lo compara con HTML. El hecho de que las especificaciones del W3C que parecen prometer nuevas soluciones estén a´ un en fase de borrador supone un serio inconveniente para ser adoptadas por los desarrolladores, que las contemplan a´ un con muchas reticencias.

1.5.

Coste de la navegaci´ on automatizada

Uno de los aspectos más curiosos para la automatización de tareas en el Web es que la mayor´ıa de las mejoras de accesibilidad mencionadas en el apartado 1.4.3 en lo referente a la independencia de dispositivos de acceso en la navegación con browsers, son también directamente aprovechables para otras aplicaciones que no son browsers, como las de navegación automática. Un marcado poco orientado a los aspectos de visualización, que delegue esa labor en hojas de estilo, independiente del dispositivo de acceso, y cercano a la estructura lógica del documento, es más simple y regular y menos proclive a ser modificado con el tiempo, pues serán las hojas de estilo quienes asuman los cambios de presentación. Ello redunda en una importante minimización de costes, tanto de publicación en el lado del servidor como de procesamiento en el cliente que manipule las páginas obtenidas del servidor. En el lado del servidor, la opción de mantener documentos accesibles, cada uno de ellos visualizable con varias hojas de estilo alternativas, cada una de ellas a su vez orientada a un dispositivo de acceso, será sin duda mucho más económica (en tiempo, espacio y esfuerzo a largo plazo) y escalable que la de mantener para cada página una versión orientada a cada terminal. En el lado del cliente, la simplicidad del marcado de las páginas accesibles reduce sensiblemente la complejidad de procesamiento. Esto tiene especial importancia en las reglas de extracción de datos basadas en la regularidad estructural de las páginas. Al ser esta regularidad estructural más simple y más estable, estas reglas serán a su vez más simples y estables, por lo que 39

necesitarán un menor esfuerzo de desarrollo y de mantenimiento. Las aplicaciones capaces de navegar en el Web que aparecen en el apartado 1.3 pueden, sin duda, ser construidas desde varias plataformas basadas en distintos lenguajes de programación. Desde C, Java, Perl, TCL-TK, Prolog, Visual Basic hasta el mismo ensamblador, cualquiera de estos lenguajes puede ser usado en la construcción de estos sistemas, habida cuenta de la existencia de varias bibliotecas de soporte utilizables en cada uno de estos lenguajes, como las mencionadas en el apartado 3.4. Sin embargo, no todas las alternativas presentan la misma flexibilidad para cada labor, ni tampoco tienen los mismos costes, soliendo haber unos lenguajes más orientados que otros para cada tipo de labor. Para minimizar los costes, es necesario que la plataforma de ejecución proporcione un buen soporte al acceso de datos en el Web por el protocolo HTTP, emulando lo más parecidamente el comportamiento de un browser y ejecutando la mayor cantidad de acciones que impl´ıcitamente éste ejecuta, algunas de las cuales aparecen en el apartado 2.1, como por ejemplo que éste sea robusto en los fallos que ocasionalmente ocurren en las comunicaciones (sobrecarga en la conexión, tiempo de respuesta excesivo en el servidor, ...), enlaces rotos a componentes del documento, y que permita ubicar fácilmente los errores cuando éstos se produzcan, para ayudar a una más rápida reparación del código de la aplicación. Desde el punto de vista del programador, la plataforma de ejecución debe proporcionarle además un API de desarrollo con el adecuado nivel de abstracción, la posibilidad de a˜ nadir sus propias medidas de robustez ante inesperados comportamientos del servidor (páginas de error, cambios de regularidad estructural, ...) y, sobre todo, una sencilla forma de definir para fuentes de datos semiestructuradas, reglas de extracción de datos, sencillas, potentes y fáciles de mantener, pues suelen ser la parte que más suele sufrir ante los inevitables cambios en la regularidad estructural de las páginas. Los costes de la navegación automatizada, que aparecen resumidos en la tabla 1.7, pueden separarse en tres grandes grupos:

Coste

Necesidad

Para programador

Para plataforma

De desarrollo

Buen API

Buen nivel de abstracci´ on

Buen soporte acciones impl´ıcitas

De ejecuci´ on fallida

Robustez

Ante cambios o fallos del servidor

En comunicaciones

De mantenimiento

Bajo coste

Reglas de extracci´ on de datos

Ubicaci´ on de errores

Cuadro 1.7: Resumen de tipos de coste de la navegación automatizada

40

1.5.1.

Coste de desarrollo

El desarrollo de aplicaciones de navegación automatizada debe tener en cuenta las caracter´ısticas de los datos que va a manejar, que se encuentran en el apartado 1.4. El coste de desarrollo depende sin duda de la complejidad de la tarea que se desea automatizar, pero también es altamente dependiente del API que ofrece la plataforma de desarrollo de estos programas. En general, lo deseable es que este API tenga un completo soporte de las acciones básicas impl´ıcitas que aparecen en el apartado 2.1 y que a su vez ese API tenga un buen nivel de abstracción para poder facilitar convenientemente la implementación de las acciones básicas expl´ıcitas, esto es, los pasos básicos de la tarea, detallados en el apartado 2.2. Una óptima plataforma de desarrollo será aquella que permita detallar cada una de estas acciones con el m´ınimo n´ umero de l´ıneas de código de alto nivel, entendibles por mucha gente y evitando en la medida de lo posible que sus diferencias con un browser trasciendan al usuario, para garantizar que la parte de la tarea que especifica la recuperación de documentos del Web sea realizada de la forma más sencilla posible. Sin embargo, la recuperación de documentos del Web no es más que una de las acciones que deben formar parte de la tarea. Tal y como figura en el apartado 2.2, debe procesarse el documento para extraer los datos relevantes que en él figuran, estructurarlos, opcionalmente homogeneizarlos en el caso de que puedan proceder de varias fuentes y procesarlos conforme a la tarea que se esté automatizando. Todas estas acciones deben ser programadas para cada tarea. Sin duda, dado que a fin de cuentas el desarrollo de estos programas es una labor de programación, conviene dotar al programador de las mejores técnicas de reutilización de código propias de los lenguajes de alto nivel de abstracción, como son la encapsulación en funciones definidas por el usuario y la modularización de las mismas para que pueda construir sus propias bibliotecas reutilizables por él y por otros usuarios. De esta forma puede reducirse igualmente el time to market, es decir, el tiempo de desarrollo y se puede disfrutar más fácilmente de prototipos más rápidamente aplicables. No obstante, una de las principales fuentes de coste de desarrollo de estos programas es la falta de soporte adecuado para muchas acciones ocultas al usuario durante la navegación y que son normalmente ejecutadas por los browsers. Siendo lo ideal que dichas acciones sean llevadas a cabo de forma transparente por estas plataformas para que no trasciendan al usuario, lo habitual es que las actuales plataformas de desarrollo de estos programas proporcionen un soporte bastante incompleto de las mismas, por lo que al final, el programador debe introducir su propio código para llevar a cabo un 41

sinf´ın de peque˜ nos detalles técnicos de los que los usuarios de los browsers no acaban siendo normalmente conscientes y que aumentan considerablemente la complejidad de la tarea. De esta forma, una peque˜ na y sencilla labor en el Web puede fácilmente requerir el desarrollo de programas demasiado grandes y complejos que intentan resolver una gran variedad de peque˜ nos detalles técnicos más propios de la configuración del servidor que de la propia tarea y que además, al ser tremendamente cambiantes, suponen una importante fuente de futuros fallos de ejecución. El coste de desarrollo queda minimizado con la utilización de lenguajes de programación con el adecuado nivel de abstracción y soporte transparente a los detalles de la navegación. Un lenguaje de programación de alto nivel de abstracción, encapsulable, modular, con la posibilidad de definir fácilmente reglas de extracción de datos basadas en la regularidad estructural y con flexibilidad para estructurar esos datos extra´ıdos resulta primordial para reducir los costes de desarrollo de estas aplicaciones.

1.5.2.

Coste de ejecuci´ on fallida

El coste de ejecución fallida es el coste que supone un fallo de ejecución al realizar una tarea. Dicho coste suele depender de la relevancia de la tarea y no ser dependiente de la forma en la que este programa pueda haber sido construido. Este coste, no obstante, puede quedar convenientemente minimizado con la utilización de medidas capaces de dotar de robustez a la navegación, para que el programa trate de la forma más adecuada los comportamientos no esperados de las comunicaciones o del servidor. Básicamente, para aplicar las medidas de robustez se suele tener en cuenta la ubicación del fallo y el tipo de tratamiento que se desea aplicar. Ubicaci´ on del fallo Fallos en las comunicaciones Las comunicaciones con el protocolo HTTP pueden fallar si existe una sobrecarga en la conexión TCP/IP, el servidor al que se intenta conectar está inaccesible o su respuesta tarda un tiempo considerado demasiado alto. Este tipo de fallos, normalmente notificados al programador en forma de excepciones o de códigos de error, pueden ser convenientemente tratados tanto desde el código de las bibliotecas de la plataforma de ejecución, como por código del usuario. Fallos del servidor Las aplicaciones del Web legado no siempre funcionan 42

de la manera en la que de ellas se espera. Ante correctas peticiones de procesamiento de formularios, las aplicaciones del Web pueden funcionar puntualmente de forma incorrecta, devolviendo al cliente páginas de error inesperadas por éste. En estos casos, el error no está ni en la aplicación de navegación, ni en la conexión TCP/IP, sino en el servidor. Distinguir una página de error (que normalmente ha sido obtenida sin errores desde el punto de vista del protocolo HTTP), de una página que confirme que se han procesado adecuadamente los datos enviados en un formulario, no es algo realizable de forma genérica, sino que dependerá de la aplicación y de su forma de devolver páginas de error. Aunque otras medidas son posibles, lo habitual suele ser tratar estos errores insertando código que asevere que la respuesta de una petición indique que ésta ha sido correctamente procesada, t´ıpicamente con una sentencia del tipo assert. No insertar este tipo de comprobaciones puede impedir el tener garantizado que el servidor haya procesado adecuadamente la petición recibida. Por otro lado, la página devuelta puede no ser una página de error y contener los datos que espera el cliente, pero puede estar tan mal construida, que no se respeten algunas normas básicas de construcción de páginas necesarias para su correcto procesamiento. En esos casos, lo habitual suele ser corregir internamente los errores de estas páginas antes de que sean manipuladas por el programa para que presenten ante el programador una estructura correctamente procesable.

Fallos del cliente por cambios en el servidor Por otro lado, conforme a lo expuesto en el apartado 1.4.7, la regularidad estructural de las páginas del servidor puede cambiar en cualquier momento al ser el Web una fuente semiestructurada de datos. Por este motivo, los programas de navegación en el Web suelen incluir código para detectar los cambios de regularidad estructural en las páginas visitadas, de forma que, si ésta cambia, el programa pueda actuar en consecuencia. Lo habitual suele ser capturar el error y ejecutar reglas secundarias de extracción de datos, o bien no capturar el error, propagando excepciones y confiando en que la regularidad estructural no cambie durante mucho tiempo. Dependiendo del grado de robustez que se quiera a˜ nadir a estos programas y del coste asumible por el programador, se puede insertar un n´ umero mayor o menor de reglas secundarias que redunden en una mayor posibilidad de encontrar el dato buscado ante estos posibles cambios. 43

Naturaleza del tratamiento Tratamiento gen´ erico Los tratamientos genéricos son aquellos que pueden implementarse para solucionar errores producidos en la navegación con cualquier servidor o aplicación accesible desde el Web. Se trata de fallos que son procesables en las rutinas de las bibliotecas de la plataformas de ejecución y que suelen permitir cierta parametrización desde el código del cliente. Ejemplos de estos tratamientos genéricos son algunas rutinas existentes, como [104, 58, 146], que permiten reparar la estructura de las páginas HTML mal construidas. Otros ejemplos son los temporizadores, que limitan el tiempo máximo admisible en el que debe ser resuelta una petición en el Web. También puede llevarse a cabo una pol´ıtica de reintentos suaves, consistente en reintentar varias veces una petición HTTP que no tenga efectos colaterales hasta que sea correctamente procesada, quizá con un n´ umero máximo de intentos. Se denomina petición sin efecto colateral a la que no modifica datos esenciales en el servidor y puede ser realizada m´ ultiples veces sin temor a sufrir efectos colaterales. Una petición con efectos colaterales, como por ejemplo una petición de transferencia bancaria, no debe ser reintentada m´ ultiples veces, salvo que se asuma el coste de su multiplicidad. Algunas iniciativas como [114] proponen extensiones al protocolo HTTP para que las peticiones con efectos colaterales puedan ser realizadas completamente de forma atómica, o que, en caso de fallo, no tengan efectos colaterales, pero se trata a´ un de una iniciativa sin estandarizar y carente de soporte en el Web actual. Si todo esto falla, el usuario a´ un puede tratar el error en su código capturando las excepciones adecuadas o analizando los errores de estas llamadas con el fin de aplicar un tratamiento particularizado. Tratamiento particularizado Los tratamientos particularizados son aquellos que no son aplicables de forma genérica en bibliotecas, sino que, al depender de las aplicaciones concretas que estén involucradas en la tarea, son mejor tratables en el código del programador (por lo que su coste es también más elevado). Son m´ ultiples las acciones de tratamiento que puede emprender un programador. Por ejemplo, puede aplicar una pol´ıtica de reintentos ante peticiones no correctamente respondidas, como por ejemplo, cuando el servidor indica que está sobrecargado de trabajo y responde con una página en la que indica que se reintente la petición más adelante. También es posible inundar el programa con reglas de extracción alternativas y redundantes para que se pongan en ejecución en el caso de fallos de las reglas principales de 44

extracción de datos. También es posible insertar código para asegurarse de que cada petición ha sido respondida correctamente y lanzar un mensaje de error y aviso al programador cuando no sea as´ı. En la tabla 1.8 aparece un resumen de las medidas de robustez más habituales aplicadas seg´ un el origen del fallo.

S´ıntoma

Tratamiento gen´ erico

Tratamiento particular

Lugar

Varios

Plataforma de ejecuci´ on

C´ odigo de programador

En comunicaciones

Excepciones, errores

Temporizadores, reintentos suaves

Reintentos

Fallos del servidor

P´ aginas de error

Reparaci´ on de p´ aginas

Asserts, reintentos

Cambios de estructura

Fallos en las reglas

No

Reglas secundarias, asserts

Cuadro 1.8: Resumen de medidas de robustez seg´ un origen del fallo

1.5.3.

Coste de mantenimiento

Los programas de navegación genérica no adaptada apenas necesitan la´ bor de mantenimiento. Esta está apenas centrada en algunos browsers, para los que frecuentemente se lanzan nuevas versiones que mejoran imperfecciones de sus predecesoras o mejoran alguna peque˜ na funcionalidad. Las modificaciones en la regularidad estructural de las páginas no las afecta, como s´ı lo hace a las aplicaciones de navegación genérica adaptada y particularizada. En el caso del Web Semántico, por ejemplo, esas modificaciones deben quedar convenientemente reflejadas en los metadatos del sitio Web, de forma que el mantenimiento se reduce a una labor declarativa. Sin embargo, en los programas de navegación particularizada, este mantenimiento es una labor muy costosa que debe realizarse habitualmente en el mismo código del programa. Por muchas medidas de robustez que se quieran a˜ nadir para alargar la vida del programa, inevitablemente alg´ un cambio no contemplado en la regularidad estructural acabará apareciendo tarde o temprano, invalidando alguna de las suposiciones asumidas por el programador. La labor de mantenimiento es en estos casos la u ńica opción. Con el fin de minimizar costes, suele ser deseable que el mantenimiento lo pueda realizar personal que no necesariamente tenga una elevada preparación. Es por ello que resulta tremendamente importante que los programas de navegación particularizada cumplan tres importantes requisitos: legibilidad, brevedad y simplicidad. 45

Legibilidad Las personas que realizan el mantenimiento de los programas no tienen por qué ser necesariamente las mismas que participaron en su desarrollo. Incluso a´ un cuando s´ı sean las mismas personas, las medidas de robustez anteriormente mencionadas pueden haber sido efectivas durante bastante tiempo y el programador que quiera realizar una labor de mantenimiento puede haber olvidado los detalles en los que se basó para su construcción. Por todas estas razones y por muchas otras, la legibilidad de los programas resulta primordial. Para mejorar esa legibilidad, es conveniente usar técnicas de programación con un nivel de abstracción adecuado para la descripción de tareas y que preferiblemente sean conocidas por mucha gente y estén basadas en estándares que eviten la ambig¨ uedad, de forma que cualquier peque˜ no trozo de código pueda ser fácilmente entendido por las personas que lo analicen sin necesidad de tener un conocimiento completo del problema. Brevedad La legibilidad no es el u ńico factor que influye en el coste de mantenimiento de estos programas. Un wrapper escrito en C o Java puede ser fácilmente legible al estar escrito en un lenguaje de programación conocido por mucha gente, pero si no usa unas bibliotecas de soporte con el adecuado nivel de abstracción, con primitivas que reflejen cada una de las acciones de la tarea en pocas l´ıneas de código, el tama˜ no del programa final puede fácilmente dispararse. Para conseguir programas breves, lo deseable es poder disponer de un potente conjunto de primitivas capaces de reflejar cada paso de la tarea en unas pocas l´ıneas de código. Simplicidad Una buena plataforma de desarrollo se caracteriza por la flexibilidad y potencia de sus primitivas de construcción, las cuales deben ser capaces de permitir a su vez la suficiente parametrización para poder controlar todos los aspectos técnicos de bajo nivel que requieran ser atendidos. Sin embargo, esa potencia suele conseguirse implicando cierta complejidad de manejo por parte del programador, por lo que es deseable además de las propiedades anteriores de legibilidad y brevedad, la suficiente simplicidad del programa para que cualquier cambio que se realice en el mismo no acabe afectando a demasiadas l´ıneas de código. Por esa razón, es deseable usar mecanismos que, permitiendo la programación de complejos algoritmos de navegación y 46

manipulación de datos, mantengan lo más simple posible los programas con el objetivo de que sea poco costosa la labor de localizar y modificar las l´ıneas de código implicadas en un cambio dentro de uno de estos programas. La simplicidad de mantenimiento se refleja en la capacidad de que cualquier cambio pueda fácilmente localizarse sobre una peque˜ na parte del programa (una l´ınea de código es lo ideal) sin que el cambio implique necesariamente una revisión del resto del programa. Es importante que la plataforma de ejecución pueda indicar el lugar donde se producen los fallos con el fin de tener localizado el lugar en el que debe aplicarse un cambio.

1.6.

Marco de trabajo

Numerosos han sido los trabajos que han elaborado aplicaciones de navegación particularizada para los sitios Web en los u ´ltimos a˜ nos. Buena parte de ellos aparece resumida en el cap´ıtulo 3. Todos ellos coinciden en presentar soluciones con serios costes de desarrollo, problemas de aplicabilidad en diversas fuentes de datos (dadas sus enormes heterogeneidades), una elevada fragilidad ante errores y cambios en el servidor, y, principalmente, elevados costes de mantenimiento que sin duda han influido en su escasa utilización. Por estas razones, nuevas formas avanzadas de recuperación y tratamiento de la información para la navegación Web particularizada, aplicable al deep Web que se sabe localizada en el Web legado, con las caracter´ısticas mencionadas en el apartado 1.4, necesitan ser aplicadas, de forma que se aprovechen los avances de los u ´ltimos estándares orientados al Web, con el fin de dar soluciones efectivas a los problemas anteriormente mencionados minimizando adecuadamente sus costes.

1.7.

Objetivos

En la presente tesis doctoral se pretende aportar soluciones para los problemas mencionados en el apartado 1.5 y que se encuentran resumidos en el apartado 1.6. Con el fin de facilitar la automatización de tareas en el Web legado, tanto basado en HTML como en cualquier formato XML, se persiguen métodos avanzados, para reducir el coste de desarrollo y mantenimiento de aplicaciones de automatización, de forma que a su vez éstas sean lo más robustas posibles ante posibles errores en las aplicaciones que ejecutan en los servidores y ante la orientación a la visualización de las páginas y a sus 47

cambios de regularidad estructural. A continuación se detallan los objetivos de esta tesis: 1. Proponer unos mecanismos de desarrollo de programas que naveguen automáticamente en el deep Web, de forma que el coste de desarrollo de estas aplicaciones, mencionado en el apartado 1.5.1, se vea sensiblemente reducido frente a las opciones existentes actualmente y la automatización de tareas en el Web por medio de programas de navegación particularizada sea as´ı asequible a un mayor n´ umero de personas. Estos métodos de construcción deberán tener un adecuado nivel de abstracción, con el fin de favorecer su comprensión, y, en lo posible, permitir su utilización por herramientas que ayuden al programador en su desarrollo. 2. Proporcionar una plataforma que no sólo pueda usarse con un elevado nivel de abstracción y comprensible por los usuarios conforme al objetivo anterior, sino que además sea convenientemente parametrizable y con el mayor cubrimiento posible a la ejecución de aquellas acciones que impl´ıcitamente el browser realiza de forma transparente evitando en lo posible que el usuario sea consciente de ello. Dichas acciones, que aparecen detalladas en el apartado 2.1, son necesarias para mantener correctamente el diálogo y el concepto de sesión con los servidores Web con los que se dialoga. El fin de esta mejora consiste en abstraer al usuario del mayor n´ umero posible de detalles de bajo nivel, permitiéndole, sin embargo, tener el control de los mismos cada vez que lo necesite. Consiguiendo que la gestión de estas acciones genéricas de cualquier sitio Web queden convenientemente encapsuladas y no formen parte del código principal de los programas, los programas se mantienen lo más compactos posible. 3. Si bien es recomendable que la plataforma de navegación se haga cargo de las acciones de las que no es normalmente consciente un usuario que navega manualmente usando un browser, las acciones que s´ı trascienden al usuario, y que aparecen en el apartado 2.2, como seguir un enlace o rellenar un formulario, deben poder ser activables de la forma más sencilla posible por parte de éste. Lo ideal es que cada una de estas acciones pueda ser especificada con una acción sencilla en el caso de que use una herramienta (como por ejemplo en un navegador), o con un m´ınimo n´ umero de l´ıneas de código, en el caso en el que emplee un lenguaje de programación, usando a ser posible un conjunto peque˜ no pero potente de constructores flexiblemente parametrizables. 48

4. Por otro lado, para las acciones m´ as complejas que debe especificar el usuario, que se encuentran detalladas en el apartado 2.2 y que normalmente se corresponden con las acciones de procesamiento de datos mencionado en el apartado 2.2.6, puede requerirse la especificación de algoritmos complicados. Por ese motivo puede ser necesario la programación de varias l´ıneas de código, con sentencias de programación como llamadas a funciones que manipulen complejas estructuras de datos, diversas condiciones que impliquen varios posibles casos alternativos a tener en cuenta, bucles que se aniden entre s´ı o con las sentencias condicionales y datos de diversos tipos. Lo habitual es que el código que procese los datos de una tarea sea muy particular y dependiente de ésta y de la forma en la que el usuario desee realizarla (por ejemplo, seleccionar la mejor oferta de leche fresca de un catálogo seg´ un varios criterios, como marca, precio, tama˜ no del envase y gastos de env´ıo). Por ello, lo más aconsejable consiste en permitir la programación de rutinas definibles por el usuario en alg´ un lenguaje de programación ampliamente conocido, como Java, u otros lenguajes igualmente reconocidos, de forma que esa rutina pueda ser convenientemente invocada desde el código de programa. De esta forma, pasando por argumento a esa rutina los datos extra´ıdos y estructurados de las páginas almacenados en repositorios programables (variables, ficheros, ...), la rutina puede manipular los datos obtenidos del Web. 5. Proporcionar mecanismos adecuados para favorecer la robustez de los programas ante fallos en las conexiones TCP/IP y adaptabilidad ante cambios en las páginas, reduciendo el coste de ejecución fallida y que aparece detallado en el apartado 1.5.2. El objetivo consiste en incluir medidas de robustez ante fallos en las comunicaciones y ante cambios y fallos en las aplicaciones accedidas por el Web. Estas medidas se plasmarán tanto en la plataforma de soporte a la ejecución como en constructores directamente utilizables por el usuario en su propio código. Dicha funcionalidad no aparece en los browsers actuales, al igual que tampoco es com´ un encontrarla en otros tipos de plataformas. También se debe contemplar una pol´ıtica de alternativas de uso en el caso de que se encuentren enlaces rotos. 6. Las medidas de robustez pueden amortiguar los efectos de los cambios de regularidad estructural del Web y pueden alargar el tiempo de vida de las aplicaciones de navegación automatizada. Sin embargo, debido al carácter siempre dinámico del Web, es necesario un mantenimiento para cuando esas medidas fallen. Por ello se pretende proporcionar 49

mecanismos para la minimización del coste de mantenimiento de las aplicaciones de navegación automatizada, que aparece detallado en el apartado 1.5.3, de forma que este mantenimiento quede reducido a una m´ınima labor, con un coste sensiblemente inferior a las alternativas utilizables hasta el momento, de forma que la mayor´ıa de las acciones de mantenimiento consistan en la modificación de una acción sencilla, de las reflejadas en el apartado 2.2, fácilmente localizada y que normalmente afecte a muy pocas l´ıneas de código del programa de usuario, sin ser necesario revisar el programa completo. 7. Permitir que esa automatización se pueda aplicar a prácticamente cualquier fuente o aplicación del Web legado, es decir, a las tradicionales páginas HTML orientadas a la visualización y cuyos principales atributos aparecen detallados en el apartado 1.4 y que mayoritariamente abundan en el Web actual. La automatización de tareas en el Web se debe poder aplicar no sólo a las páginas que, por estar bien construidas, les sean inmediatamente aplicables las modernas tecnolog´ıas de manipulación de documentos y extracción de datos, sino también a aquellas que estén mal construidas (dentro de unos l´ımites que las permitan ser convenientemente reparadas). Para ello, se incluirán en la plataforma de ejecución métodos capaces de reparar automáticamente esos errores de las páginas recuperadas de los servidores. Igualmente, deberán proporcionarse mecanismos, si no en la plataforma, al menos a disposición del usuario, para solventar los problemas derivados del hecho de que esas páginas estén pensadas exclusivamente para el acceso por medio de un conjunto limitado de browsers gráficos, o con capacidad de accionar eventos especiales desde rutinas embebidas en applets, animaciones Flash o, principalmente, rutinas JavaScript. 8. Permitir aplicar ese tratamiento automatizado de la información mencionado anteriormente también a documentos de cualquier lenguaje definido sobre XML, siempre que al menos su esquema sea conocible a priori por el programador para las tareas más complejas que as´ı lo requieran. As´ı pues, se pretende que, aunque la mayor parte de las pruebas de implementación de esta tesis se realizará sobre páginas HTML del Web legado, ese formato concreto no deje de ser sólo un ejemplo particular de navegación sobre documentos en el Web, siendo posibles igualmente otros lenguajes definibles en XML, no ya sólo algunos de las ya conocidos (como WML + WMLScript [61], SMIL [125], RDF [123], RSS [16], SVG [124], MathML [120], ...), sino cualquier otro lenguaje XML en general, actual o futuro, es decir, ya inventado o a´ un por inven50

tar, independientemente de si su uso está centrado en la visualización en un browser o si tiene otra finalidad.

1.8.

Estructura de la memoria

El cap´ıtulo 2 presenta un an´ alisis de los principales aspectos de la automatización en el Web. Para poder realizar una efectiva automatización de tareas en el Web es preciso analizarlas primero, reconociendo sus partes o acciones básicas, examinando las alternativas aplicables a cada una de ellas, teniendo en cuenta las caracter´ısticas distintivas de la materia tratada (los datos del Web). Para cada parte, se analizan sus principales ventajas e inconvenientes desde los puntos de vista de aplicabilidad y de coste de implantación, con el fin de poder escoger para cada problema la solución más adecuada. En el cap´ıtulo 3 se describe el estado del arte de la automatización de tareas en el Web, analizando desde sus precedentes hasta las tendencias actuales. Un estudio sobre las soluciones tecnológicas existentes, clasificadas seg´ un los criterios establecidos anteriormente puede encontrarse en el cap´ıtulo 4. Los cap´ıtulos 5 y 6 presentan unas propuestas de tecnolog´ıas para la s´ıntesis de aplicaciones para la automatización de tareas en el Web que, basándose en las ideas del cap´ıtulo 2, presentan unos mecanismos de construcción de estas aplicaciones capaces de ser operables en el Web legado y que tienen además la aportación de estar basadas en estándares que reducen sensiblemente los costes de implantación y mantenimiento. El cap´ıtulo 7 introduce unos ejemplos que demuestran la aplicabilidad de estas propuestas a tareas definidas sobre sitios Web conocidos. Finalmente se enumeran algunas conclusiones del trabajo as´ı como l´ıneas de actuación para trabajos futuros.

51

52

Cap´ıtulo 2 An´ alisis de tareas Web Cuando la gente navega por el Web, aparte de por ocio o entretenimiento, suele hacerlo persiguiendo un fin concreto, un propósito particular. Ejemplos de tareas Web quizá no tan complejas como las del apartado 1.2 pueden verse en la siguiente lista: Obtener un documento o un conjunto de ficheros multimedia Leer un periódico Usar un buscador (o varios) Enviar postales electrónicas Leer correo Web, lo cual implica las subtareas de identificarse, listar los mensajes, visitar siguientes, responder, ... Consultar disponibilidad de habitaciones en un hotel, suponiendo que ofrezca esta información online Comprobar que las páginas publicadas en un sitio Web cumplan ciertas propiedades (no tener enlaces rotos, adherirse a alg´ un formato particular, ...) Comprar billetes de avión o de tren Comprar en una tienda electrónica, lo cual implica buscar cada art´ıculo, a˜ nadirlo al carrito, estar atento a las ofertas, pagar, ... Reservar salas de reuniones en la intranet de una organización 53

Presentar la declaración de la renta Poner una denuncia en la polic´ıa Y muchas más Seg´ un crece el Web, con cada vez un mayor n´ umero de datos y aplicaciones accesibles, el n´ umero de tareas igualmente aumenta. De hecho, el crecimiento del Web no es el u ńico impulsor del aumento de tareas realizables en el ´ Web. Ultimamente comienzan a ser cada vez más necesarias aplicaciones que combinen la información de varios sitios Web, de la misma forma en la que se combinan datos de bases de datos verticalmente fragmentadas y distribuidas [52]. Esas tareas empiezan a ser inmanejables para ser realizadas manualmente. En otras ocasiones, por el contrario, sobre una misma aplicación accesible en el Web es deseable ejecutar varias tareas posibles. Pese a las reticencias de quien no quiere que sus datos sean comparados de forma expl´ıcita por un tercero, es poco extra˜ no que un comparador de ofertas como [3] o de asociaciones de consumidores soliciten al Web de un banco la TAE de su mejor depósito bancario a seis meses para compararla con la de su competencia. De la misma forma, tampoco deber´ıa resultar extra˜ no que ese mismo dato acabe siendo proporcionado a otra aplicación encargada de calcular el TAE medio ofrecido por los principales bancos espa˜ noles para un estudio estad´ıstico. La utilidad que el dato tenga en la tarea es algo que depende mucho de la tarea y poco del servidor. Para poder automatizar las tareas en el Web es preciso analizarlas primero, diseccionando las partes en las que están estructuradas y reconociendo, de cada una de esas partes, sus capacidades de automatización y sus principales retos. As´ı, en una etapa posterior, se podrán aprovechar esas cualidades de la mejor forma posible para sintetizar aplicaciones que automaticen el Web de forma más eficiente y menos costosa. Acciones b´ asicas A pesar de la clara e intr´ınseca heterogeneidad del Web, mencionada en el apartado 1.4 y manifiesta, no sólo en sus datos, sino también en sus formas de presentación, lo cierto es que, por debajo de toda esta visible heterogeneidad, los principios bajo los que se sustentan las tareas en el Web son sencillos. De hecho, la simplicidad de manejo de cualquier browser no es más que un fiel reflejo de que, efectivamente, las partes de una tarea realizable 54

con una navegación en el Web se reducen a un conjunto limitado y sencillo de acciones b´ asicas. El conjunto de posibles tareas que se pueden realizar en el Web es inmenso. De hecho, no para de crecer en tanto en cuanto es cada vez mayor el n´ umero de aplicaciones que se encuentran disponibles a través del Web. Sin embargo, los innumerables servicios del Web, sean éstos simples páginas o bien complejas aplicaciones manejadas por varios formularios, pese a sus aparentes diferencias visuales, tienen en com´ un el hecho de estar todos ellos fundamentados en alguna secuencia (o secuencias) de un reducido conjunto de acciones básicas que resultan ser comunes a todas las tareas. Cada tarea realizable en el Web se puede desarrollar efectuando una secuencia particular de este conjunto de acciones básicas. Por ejemplo, una t´ıpica tarea de chequeo de cuentas de correo electrónico en un portal de correo Web puede implicar una acción básica de solicitud de un documento donde aparece un formulario de identificación que, una vez rellenado y enviado al servidor, permite el acceso a una bandeja de correo entrante en la que aparece una tabla con los principales atributos de los mensajes almacenados, ordenados por fechas y en los que es posible distinguir entre mensajes le´ıdos y no le´ıdos. Cada uno de esos mensajes a su vez puede ser le´ıdo si se sigue convenientemente un enlace. También puede ser borrado, si se chequea su opción de selección correspondiente y después se pulsa al botón de borrado. Otras acciones, como responder o reenviar también son posibles. Secuencias distintas de este reducido conjunto de acciones básicas constituyen el quehacer diario del tráfico Web actual al que dan servicio los numerosos servidores Web conectados a la Red. Para la realización de una tarea Web, el usuario debe realizar la ejecución en secuencia ordenada, de cada una de las acciones básicas que conforman esa tarea.

Tipos de acciones b´ asicas Las acciones básicas que forman parte de una tarea no son todas de la misma naturaleza, pudiendo distinguirse entre acciones básicas impl´ıcitas y acciones básicas expl´ıcitas. Las acciones básicas impl´ıcitas son aquellas que no deben trascender al usuario y que son realizadas automáticamente por el browser en una navegación manual. En ellas, el usuario no es necesariamente emprendedor de la acción. Se trata de acciones que se encuentran gestionadas internamente por los browsers, sin que el usuario deba proporcionar instrucciones expl´ıcitamente para ello. Ejemplos de acciones básicas impl´ıcitas son todas las referentes 55

a la gestión de cabeceras HTTP (gestión de cookies, redireccionamientos, identificación de usuario y de agente de usuario, preferencias en los formatos aceptados o en el idioma, ...), o las que se deben realizar necesariamente con el contenido del cuerpo de la respuesta HTTP (corrección interna de errores de estructura en el documento, seguimiento impl´ıcito de enlaces, acciones embebidas en lenguajes de scripting, ...). Las acciones básicas expl´ıcitas son el conjunto de acciones que, en una navegación manual, deben trascender al usuario, ya que el browser no puede o no debe emprenderlas por su cuenta. Es por ello que el browser debe esperar instrucciones del usuario, t´ıpicamente de forma interactiva, para poder continuar. De esta forma, el usuario se acaba convirtiendo necesariamente en el emprendedor de la acción. Ejemplos de acciones básicas expl´ıcitas son el seguimiento expl´ıcito de enlaces, el rellenado y env´ıo de formularios, la extracción de datos relevantes del documento o el procesamiento que debe realizarse con los datos recolectados. Como puede apreciarse, las acciones básicas expl´ıcitas tienen un nivel de abstracción más elevado y cercano al usuario, mientras que las acciones básicas impl´ıcitas tienen un nivel de abstracción más bajo y más cercano a los aspectos técnicos de los protocolos HTTP y de los formatos de publicación en el Web. Como puede comprobarse en la tabla 2.1, que refleja las principales diferencias entre las acciones básicas expl´ıcitas e impl´ıcitas, las primeras afectan constantemente al usuario de la navegación manual. Por el contrario, esas acciones son atendidas por un programa que sustituye al usuario en las aplicaciones de navegación automatizada, tanto genérica como particularizada. Las acciones impl´ıcitas, por su parte, dise˜ nadas para ser resueltas sin conocimiento expl´ıcito del usuario, son transparentemente gestionadas por los browsers en la navegación manual. En el caso de la navegación automatizada, lo deseable ser´ıa que la plataforma de navegación (el programa que navegue basándose en metadatos, o las bibliotecas usadas para la construcción del programa de navegación particularizada) ejecutaran todas esas acciones con la misma transparencia de un browser. No obstante, la falta de buenas plataformas de navegación automatizada para el Web con soporte para todas estas posibles acciones muchas veces acaba obligando al programador a introducir su propio código de tratamiento para suplir las carencias de las plataformas de navegación. Ello suele ser una fuente de encarecimiento de costes de estos programas, seg´ un el nivel de soporte que de estas acciones tenga la plataforma.

56

Acci´ on b´ asica expl´ıcita

Acci´ on b´ asica impl´ıcita

Usuario

Browser

Navegaci´ on manual Navegaci´ on autom´ atica gen´ erica no adaptada

Robot

Seg´ un programa

Navegaci´ on autom´ atica gen´ erica adaptada

Metadatos

Agente Web Sem´ antico

Navegaci´ on autom´ atica particularizada

Programador

Bibliotecas+programador

Nivel de abstracci´ on

Cercano a la tarea

Cercano a formatos y protocolos

Ejemplo

Enviar un formulario relleno

Gestionar una cookie

Cuadro 2.1: Diferencias entre acciones básicas expl´ıcitas e impl´ıcitas

2.1.

Acciones b´ asicas impl´ıcitas

Las acciones básicas impl´ıcitas son realizadas por muchos browsers sin que sus usuarios sean muchas veces conscientes de ello. Pese a su relativamente bajo conocimiento por muchos usuarios, las acciones básicas impl´ıcitas son necesarias para aspectos tan fundamentales como el mantenimiento de sesiones HTTP, las restricciones de acceso a contenidos, la adecuación del Web a preferencias del usuario, o la ejecución de m´ ultiples comportamientos internos necesarios para la correcta navegación por cualquier página accesible desde el Web. A continuación aparecen detalladas algunas de las acciones básicas impl´ıcitas más importantes.

2.1.1.

Gesti´ on de cabeceras HTTP

El protocolo HTTP establece la posibilidad de intercambiar en varios campos situados en sus cabeceras, información relativa a las peticiones y respuestas intercambiadas. Estas cabeceras pueden ser usadas tanto por el cliente como por el servidor HTTP para obtener información que necesiten del otro extremo con el fin de mantener un diálogo correcto. La mayor´ıa de esas cabeceras permanecen inalterables a lo largo de ese diálogo, pero otras muchas van cambiando a lo largo de ese diálogo, por lo que deben ser adecuadamente gestionadas para poder realizar correctamente la petición HTTP. En la tabla 2.2 aparecen las principales cabeceras que deben gestionar los clientes del protocolo HTTP. Cada una de esas cabeceras tiene su especial importancia. Por ejemplo, algunos servidores Web presentan páginas de error cuando son accedidos por programas que no acreditan ser Microsoft Internet Explorer en la cabecera de identificación del cliente, pese a que sus contenidos sean en realidad navegables por otros browsers. En otros casos, no 57

especificar correctamente una cookie o el campo Referer en una petición a un servidor puede suponer la pérdida de la sesión con el servidor. No indicar que se acepta HTML como formato, puede implicar la suposición por parte del servidor de que debe responder con documentos en formato WML o quizá en texto plano. No indicar que el idioma preferible es el espa˜ nol puede implicar que las páginas vengan por defecto en inglés. Nombre de cabecera

Emitida por

Significado

Ejemplo

User-Agent

Cliente

Identificaci´ on del cliente

Mozilla/4.6

Accept

Cliente

Formatos aceptados

text/html, image/*

Accept-Language

Cliente

Idiomas preferibles

en, es-ES, es

Referer

Cliente

URL desde la que se sigue el enlace

http://www.yahoo.es/

Cookie

Cliente

Valor almacenado en el cliente

NOMBRE=VALOR

Authorization

Cliente

Identificaci´ on para acceso restringido

Base 64

Set-Cookie

Servidor

Valor almacenable en el cliente

NOMBRE=VALOR

WWW-Authenticate

Servidor

Acceso restringido

“AccessRestreint”

Content-Type

Cliente o Servidor

Formato del documento o petici´ on

text/html

Content-Length

Cliente o Servidor

Tama˜ no del documento o petici´ on

12354

Cuadro 2.2: Principales cabeceras gestionadas por los clientes del protocolo HTTP

2.1.2.

Gesti´ on de errores en la comunicaci´ on con el servidor

Las comunicaciones con el protocolo HTTP pueden fallar si existe una sobrecarga en la conexión TCP/IP, el servidor al que se intenta conectar está inaccesible o su respuesta tarda un tiempo considerado demasiado alto para lo razonable por la tarea. Dependiendo de la gravedad del fallo (no es lo mismo que haya un fallo de transferencia en una página HTML que lo haya en la transferencia de una de sus imágenes), el error deberá hacerse constar con mayor o nivel de severidad al usuario o al programa que dirija la tarea para que tome las medidas que considere oportunas.

2.1.3.

Reparaci´ on interna de p´ aginas mal construidas

Una vez obtenida una página del Web y solventados los problemas de comunicación con el servidor, debe procederse a analizar la respuesta, nor58

malmente contenida en una página HTML. Lamentablemente, tal y como se mencionaba en el apartado 1.4.3, muchas de las páginas que se encuentran en el Web no cumplen el conjunto de normas básicas de construcción. Por esa razón, resulta necesario reparar internamente esos errores con el fin de permitir el análisis de esa respuesta por el cliente, ocultando al usuario esos errores en la medida de lo posible. Este trabajo extra en el lado del cliente debe ser realizado debido a la tradicional permisividad ante errores en las páginas obtenidas de los servidores.

2.1.4.

Seguimiento impl´ıcito de enlaces

Una vez correctamente analizada una página obtenida del Web, es necesario identificar todos aquellos elementos multimedia que forman parte de la misma con el fin de seguir los enlaces que impl´ıcitamente deban visitarse. El seguimiento de enlaces puede ser entendido como impl´ıcito, si es el browser el que decide recuperar ese documento, quizá porque forme parte integrante del que acaba de ser descargado y analizado, o expl´ıcito, si es el usuario el responsable de la activación del enlace. Por ejemplo, los enlaces que en HTML se definen con las etiquetas a o area son normalmente seguidos de forma expl´ıcita, porque no deben ser visitados a no ser que el usuario expl´ıcitamente lo solicite. Por el contrario, en otros tipos de enlaces que en HTML se definen con etiquetas como frame, img, script, link u object, es el browser quien determina si deben ser seguidos de forma expl´ıcita o impl´ıcita. Si, por ejemplo, se desea emular a un browser gráfico como Mozilla [12] o Microsoft Explorer [91], los seguimientos de los enlaces definidos en las etiquetas anteriores, salvo los roles expl´ıcitos de link (next, previous, table of contents, ...), son impl´ıcitos, pues se entiende que un browser gráfico normalmente descarga impl´ıcitamente de cualquier página del Web todos sus componentes, como son los marcos, imágenes, scripts externos y hojas de estilo externas. Por el contrario, cuando se desea emular a un browser textual como Lynx [10], el seguimiento de los anteriores enlaces se vuelve, si no expl´ıcito, muchas veces incluso inaccesible, porque se entiende que hay documentos enlazados que no son adecuadamente procesados por el browser. En la tabla 2.3 puede verse un esquema resumido del comportamiento de estos enlaces dependiendo del browser en el que se utilizan.

59

Browser

a, area

img, frame

link

script, object

Gr´ afico

Expl´ıcito

Impl´ıcito

Impl´ıcito

Impl´ıcito

Textual

Expl´ıcito

Expl´ıcito

Limitado

Inaccesible

Braille

Expl´ıcito

Limitado

Limitado

Inaccesible

Cuadro 2.3: Tipo de seguimiento de enlaces HTML dependiendo del browser

2.1.5.

Ejecuci´ on de comportamientos embebidos en las p´ aginas

Una vez han sido correctamente descargados todos los elementos multimedia de las páginas, los elementos dinámicos de las mismas (rutinas JavaScript o JScript, Applets, controles ActiveX, animaciones en Flash, otros plugins, ...) pueden empezar a funcionar. Se trata de las rutinas que, mediante peque˜ nos programas insertados en las páginas Web y, gracias a un intérprete, máquina virtual o plugin embebido en el browser, permiten al dise˜ nador de la página tener acceso a ciertos recursos del browser del usuario. Las rutinas JavaScript, que suelen ser las más usadas, permiten controlar un amplio espectro de acciones t´ıpicamente manejadas por el browser. Por ejemplo, son capaces de manipular aspectos tan diversos como las propiedades de visualización de los elementos de las páginas (tama˜ nos, posiciones, colores, visibilidad, ...) , la descarga condicionada de elementos multimedia de una página, manipular la base de datos de cookies o modificar al gusto del dise˜ nador de la página la semántica del comportamiento de los controles de los formularios. Tanto es as´ı, que muchas páginas resultan innavegables si el browser con el que se las intenta acceder no dispone de un intérprete ajustado a las especificaciones del JavaScript utilizado en la página. Si la plataforma de navegación no dispone de estos intérpretes o estos plugins, los comportamientos embebidos no son ejecutables. Ello puede no suponer un problema serio para el procesamiento de páginas con comportamientos embebidos que sólo afecten a aspectos de visualización, siempre que existan contenidos alternativos ofrecibles al usuario o, simplemente no aporten datos relevantes. Sin embargo, puede suponer serios problemas para la accesibilidad cuando esos comportamientos tienen un papel en la navegación. Este tipo de rutinas tiene una caracter´ıstica muy importante desde el punto de vista de su automatización. Al tratarse de comportamientos que vienen pre-programados en elementos multimedia de las páginas, su comportamiento, no se encuentra por lo tanto pre-programado en ning´ un browser, es decir, no es conocible a priori, por lo que para su correcto funcionamiento se necesita del correspondiente soporte para la ejecución. Sin embargo, dis60

poner de ese soporte puede ser dif´ıcil o costoso para muchos usuarios que no siempre lo encuentran disponible en browsers o plataformas de navegación automatizada.

2.1.6.

Soporte para otros protocolos

En ocasiones, se deben enviar mensajes por correo electrónico. En otras ocasiones, algunos documentos deben recuperarse usando otros protocolos como FTP. También es posible que sea necesario acceder a ciertas páginas mediante protocolos seguros, principalmente SSL. Forma parte de las acciones impl´ıcitas de la plataforma de navegación saber gestionar adecuadamente estos protocolos, de forma que el usuario no sea consciente de esos detalles de bajo nivel de cada uno de ellos.

2.1.7.

Tratamiento adecuado de cada campo de formularios seg´ un su forma de rellenado

A la hora de asociar valores a los campos de los formularios, es necesario tener en cuenta las reglas de rellenado de cada campo del formulario reflejadas en la tabla 2.4. Por una parte, debe considerarse el tipo de valor que indica la naturaleza del valor asociado a cada campo del formulario. Principalmente, pueden distinguirse textos libres especificados por el usuario, ficheros que deben ser enviados del cliente al servidor y valores ya especificados en la página por el servidor. Por otra parte, debe considerarse la especificación de rellenado por el usuario, es decir, aquello que el usuario debe proporcionar para que dicho campo de formulario quede adecuadamente relleno. Principalmente, puede distinguirse entre el rellenado directo, que consiste en el que el usuario proporciona directamente el valor con el que desea rellenar el formulario, o bien un rellenado indirecto, en el que el usuario especifica un criterio de selección que sirve para decidir las opciones que deben quedar marcadas y las que no. El criterio de selección consiste normalmente en un criterio booleano que, aplicado a cada una de las opciones seleccionables, indica si esa opción debe admitirse o no como seleccionada. Los criterios de selección pueden ser de dos tipos, sencillos o m´ ultiples, dependiendo de si, cuando son aplicados a un conjunto de varias opciones, deben indicar una o varias de esas opciones como seleccionadas. Este acomodamiento, o conjunto de restricciones establecidas sobre el conjunto de valores posibles con los que se puede rellenar un formulario, se encuentra ya facilitado por los browsers y es una de las acciones básicas impl´ıcitas que influyen en la forma de rellenar 61

cualquier formulario.

Campo

Tipo de valor

Rellenado por usuario

textarea

Texto libre

Rellenado directo

input.text, input.password

Texto libre sin saltos de l´ınea

Rellenado directo

select, input.radio

Valor especificado por el servidor

Criterio de selecci´ on

select.multiple, input.checkbox

Valores especificados por el servidor

Criterio de selecci´ on (m´ ultiple)

input.file

Fichero local

Path al fichero

input.hidden

Valor especificado por el servidor

Oculto al usuario

input.button

Llamada a JavaScript

No

input.reset

Reinicio del formulario

No

input.submit, input.image

Env´ıo

Criterio de selecci´ on

Cuadro 2.4: Tipo de rellenado de campos de formularios HTML

2.1.8.

Creaci´ on de query-string a partir de un formulario relleno

Antes de enviar a un servidor un formulario relleno, es necesario codificar la información que encierra para su env´ıo, de forma que sea correctamente procesable en el servidor. Esta información codificada, denominada querystring, es enviada como parte de la correspondiente petición HTTP al servidor. En el caso de que la petición sea del tipo POST, el query-string debe formar parte del cuerpo de la petición, por lo que irá aislado aparte de las cabeceras HTTP. Por el contrario, si el formulario se env´ıa con un comando GET, el query-string es concatenado al final de la URL que se desea visitar. La acción de codificación de formularios rellenos debe tener en cuenta su estructura, respetando el orden y el tipo de cada uno de los campos que componen el formulario. A la hora de crear el query-string, se deben establecer parejas campo-valor, independientemente de cómo se hubieran rellenado los campos de ese formulario. Por otra parte, en la codificación del query-string puede frecuentemente jugar también un papel importante el JavaScript. Muchos de los campos de los formularios dedicados a controlar eventos JavaScript no deben ser enviados al servidor. Los botones de env´ıo no pulsados tampoco deben ser enviados al servidor. 62

2.2.

Acciones b´ asicas expl´ıcitas

Las acciones básicas expl´ıcitas son las que definen los pasos en los que está involucrado el usuario durante la ejecución de una tarea en el Web. Realizarlas con un navegador suele ser un buen punto de partida para empezar a construir el esqueleto básico de una aplicación de navegación automatizada. Las tareas del Web son, por lo tanto, especificadas basándose en este tipo de acciones. Algunas de ellas, sin embargo, no son siempre necesarias en todos los pasos. La tabla 2.5, muestra cada una de esas acciones en una fila, para comparar su capacidad de automatización desde los puntos de vista de la navegación manual y de la navegación automática. Como puede apreciarse, desde el punto de vista de la navegación manual, todas ellas, en mayor o menor medida, con mayor o menor soporte por parte del browser, son responsabilidad del usuario. Desde el punto de vista de la navegación automatizada, estas acciones deben recaer en un programa, por lo que se mencionan las partes de ese programa que están afectadas por cada una de esas acciones. Por ejemplo, las acciones de seguimiento de enlaces y env´ıo de formularios apenas suelen suponer la correspondiente llamada a las primitivas GET o POST del protocolo HTTP, a la que sólo hay que parametrizar convenientemente. Sin embargo, el resto de las acciones básicas expl´ıcitas no tiene un coste tan reducido como ése habitualmente, ya que, al ser dependientes de la tarea, deben ser programadas con código de usuario. Acci´ on b´ asica expl´ıcita

Navegaci´ on manual

Navegaci´ on automatizada

Extracci´ on de datos relevantes

Usuario

Reglas de extracci´ on (regularidad estructural)

Estructuraci´ on de datos semiestructurados

Usuario

Repositorios estructurados

Seguimiento expl´ıcito de enlaces

Usuario + Browser

Llamada a primitiva GET

Rellenado de formularios

Usuario + Browser

Metadatos, c´ odigo de programador

Env´ıo de formularios

Usuario + Browser

Llamada a primitivas POST/GET

Procesamiento de datos

Usuario

Rutinas de usuario, programas externos, ...

Cuadro 2.5: Acciones básicas expl´ıcitas

2.2.1.

Extracci´ on de datos relevantes

La extracción de datos relevantes implica la selección de los datos considerados relevantes embebidos en las páginas Web y su extracción para posteriores procesamientos. Estos datos, cuya relevancia se encuentra descrita en 63

el apartado 1.4.4, se suelen encontrar repartidos por varias páginas o marcos. Cuando no se trata de ficheros multimedia, lo normal es que se encuentren en forma de simple información textual (e.g.: precios, titulares, mensajes, teléfonos, direcciones, cotizaciones, fechas, cantidades, ...) t´ıpicamente embebida en páginas HTML junto con otra mucha información que puede no ser relevante para la tarea (publicidad, marcado estructural orientado a la visualización, datos relevantes para otras tareas, ...). La capacidad de extraer datos del Web, es sin duda de las más importantes, pues juega un papel importante en todos los pasos ejecutados entre la navegación por el Web. Seguir un enlace implica seleccionar en primer lugar el enlace que debe ser seguido y extraer de él la dirección a la que apunta. Enviar un formulario implica seleccionar en primer lugar todos los campos que forman parte del mismo y rellenar cada uno conforme a su naturaleza y a los objetivos del usuario, para después activar la acción del formulario. Otros procesamientos más complejos definidos por el usuario, como comparaciones, integración de datos y otros comportamientos, necesitan también la realización de complejas extracciones de datos. De esta forma se prescinde de todos aquellos datos que aparecen en las páginas pero que no intervienen en la tarea. En el caso de la navegación manual basada en browsers, el usuario debe visualizar normalmente pantallas enteras para poder detectar visualmente la información que le interesa. Es normal que para ello deba examinar varias pantallas y ventanas o hacer scrolling. Desafortunadamente, los browsers de hoy en d´ıa no reciben especificaciones acerca de cuáles son los datos relevantes para los usuarios y cuáles pueden ser ignorados, con el fin de destacar los primeros y ocultar los u ´ltimos (esta labor quizá podr´ıa ser emprendida con scripts definibles por los usuarios aplicados a documentos del Web, pero ello no es una solución siempre factible). La u ńica función de un browser es mostrar un documento de la mejor forma posible y ejecutar sus órdenes interactivas, siendo imposible destacar para cada usuario los datos que son interesantes para él y su tarea. Las opciones de destacado de partes de documentos están a merced de los autores de los documentos, no de sus lectores, algo que sin embargo algunos trabajos como [48] s´ı han logrado hacer basándose en una personalización que no todos los sitios Web ofrecen. Aunque la simple lectura de textos sobre las pantallas de un ordenador puede ser suficiente para algunos usuarios a la hora de pasar a realizar su siguiente acción, lo cierto es que el Web se caracteriza por presentar demasiada informaci´ on que presenta costes prohibitivos para ser procesada por personas, razón por la cual una separación automatizada de los datos relevantes respecto del resto de datos no relevantes resulta conveniente en esos casos. 64

En el caso de la navegación automatizada, la extracción de datos no está basada en la visualización, sino que consiste en una selección de datos relevantes dentro de documentos semiestructurados, lo cual no es siempre sencillo y es además claramente dependiente de la estructura interna de esos documentos. Para ello, pueden usarse reglas de extracci´ on de datos basadas en una regularidad estructural seleccionando aquellos datos que cumplan un formato esperado. Sin embargo, esta estructura de marcado en la que están basadas estas reglas está normalmente muy orientada a los aspectos de visualización, por lo que las reglas de extracción de datos, aparte de ser de las partes con mayor presencia en los programas, son también de las más frágiles, ya que cualquier cambio en la estructura esperada de las páginas afecta directamente a esas reglas. La fácil construcción de estas reglas de extracción de datos es vital para conseguir un bajo coste, no sólo de desarrollo, sino también de mantenimiento. En el caso de la navegación manual, esta labor recae completamente en el usuario. El browser prácticamente no interviene ni realiza otra labor m´ as que presentar los datos en la pantalla junto con el resto de la informaci´ on, sin tener capacidad para tan siquiera resaltar el dato para el usuario, pues no tiene forma de saber cuál de los datos que figuran en la p´ agina es el dato que interesa al usuario para su tarea. En el caso de la navegaci´ on autom´ atica, al tratarse de un tratamiento espec´ıfico y dependiente de la estructura de las p´ aginas, de los datos, y de la tarea que los va a utilizar, esta acci´ on no se encuentra pre-construida en una biblioteca genérica de la plataforma, por lo que debe ser programada en reglas de extracci´ on definibles por el usuario.

2.2.2.

Estructuraci´ on de datos semiestructurados

Los datos extra´ıdos pueden ser necesarios más de una vez a lo largo de la ejecución de una tarea, por lo que conviene que sean convenientemente almacenados en un repositorio estructurado. Desde el punto de vista de la navegación manual, esta labor recae en la responsabilidad del usuario, quien habitualmente suele resolver el problema memorizando el dato recientemente visualizado (t´ıpicamente en su memoria a corto plazo), apuntarlo en un papel o, en el mejor de los casos, recurrir el conocido uso del copiar y pegar en la ventana de otra aplicación. Sin embargo, ni la mente humana, ni el papel, ni una ventana de un editor de texto son repositorios adecuados para el procesamiento automatizado desde un programa de ordenador. Además, los datos obtenibles del Web pueden ser muy voluminosos (de ah´ı el desbordamiento habitual que sufren la mayor´ıa de los usuarios que navegan con browsers), por 65

lo que para poder almacenar convenientemente esos datos se necesitan repositorios capaces de almacenar grandes vol´ umenes de los mismos, muchas veces sin que su tama˜ no sea a priori limitable. Por esa razón, los programas de navegación automática suelen usar, no sólo variables de memoria, sino estructuras de datos de tama˜ no variable, como vectores, listas o ficheros, en los que ir almacenando los valores extra´ıdos de las páginas para que puedan ser posteriormente procesados. Cuando se almacenan las partes seleccionadas de estos documentos en repositorios especializados, los datos seleccionados pueden ser convertidos a tipos de datos más fácilmente procesables habituales en los lenguajes de programación, como n´ umeros, booleanos, fechas, cadenas de caracteres o, quizás, nodos de un árbol de documento. En el caso de la navegaci´ on manual basada en browsers, el usuario es el responsable de almacenar los datos y por ello es él quien decide c´ omo almacenarlos. Normalmente los suele intentar memorizar o dejar en alguna ventana abierta del navegador que posteriormente esté accesible para poderla volver a leer, pero ello implica la necesidad de tener que volver a extraer de ella nuevamente los datos cada vez que se deseen manipular, y la posibilidad de perderlos si se siguen enlaces en la misma ventana. En el mejor de los casos, pueden almacenarse en otras herramientas externas, pero ello implica una ardua labor de estructuraci´ on con el fin de poder manipular eficientemente grandes vol´ umenes de informaci´ on. En el caso de la navegaci´ on autom´ atica, al tratarse de un tratamiento espec´ıfico y dependiente de la estructura de las páginas, de los datos, y de la tarea que lo va a utilizar, esta acci´ on no se encuentra pre-construida en una biblioteca genérica de la plataforma, por lo que debe ser programada en las correspondientes sentencias de almacenamiento en repositorios estructurados.

2.2.3.

Seguimiento expl´ıcito de enlaces

Los datos en el Web se suelen encontrar distribuidos en m´ ultiples documentos que, por lo tanto, deben ser recuperados. Para ello suele usarse el protocolo HTTP, haciendo un seguimiento expl´ıcito de enlaces conforme a la tabla 2.3. A veces las direcciones de esos documentos no son conocidas a priori por el usuario, sino que tienen que ser obtenidas dinámicamente desde otras páginas ejercitando la navegación. En los casos más sencillos, bastará con visitar una dirección Web en la que se sabe que figuran los datos que se desea consultar. En otros casos, es necesario establecer una sesión desde la página principal del sitio Web de forma que hay que seguir varios enlaces y rellenar varios formularios antes de acceder finalmente a la página 66

que contiene el dato. En el caso de la navegación manual, el seguimiento expl´ıcito de enlaces consiste en una labor semiautomática, asistida por el browser, donde la labor del usuario se reduce a seleccionar y activar los enlaces que le interesan. En el caso de la navegación automática, esta acci´ on se encuentra ya completamente pre-construida en las primitivas de varias bibliotecas utilizables desde distintos lenguajes de programaci´ on para lanzar comandos GET, por lo que t´ıpicamente la labor de programaci´ on se reduce a parametrizar la llamada a esta primitiva.

2.2.4.

Rellenado de formularios

El rellenado de un formulario Web consiste simplemente en asociar uno o varios valores a cada uno de sus campos (también es posible dejar algunos de ellos vac´ıos). Los valores con los que se rellenan esos campos (tal y como viene expresado en la tabla 2.4) pueden venir definidos por el usuario, o pueden venir predefinidos en el propio formulario, pero en cualquier caso es el usuario el responsable de establecer aquellos valores que le interesen para su tarea. Por otra parte, puede haber campos de formularios que no son manipulados (porque no los ha querido rellenar) o que no son manipulables (porque están ocultos al usuario), en cuyo caso, conservan el valor con el que vinieron rellenados por defecto en el formulario. En el caso de la navegación manual, se trata de una labor semiautom´ atica asistida por el browser, donde la labor del usuario se reduce a interactuar con los campos de los formularios. En el caso de la navegaci´ on autom´ atica, al tratarse de un tratamiento espec´ıfico y dependiente de la estructura del formulario, y de la tarea que lo desee rellenar, esta acci´ on no se encuentra pre-construida en una biblioteca genérica de la plataforma, por lo que debe ser programada en código definido por el usuario. Normalmente la complejidad del rellenado de cada campo es dependiente de la estructura interna de representación de ese formulario, pues es normalmente sobre ella donde se realizan estas modificaciones para después proceder a la orden de env´ıo del formulario, seg´ un la siguiente acci´ on expl´ıcita. En el mejor de los casos, con una buena representación donde exista una lista de campos recorrible y unas primitivas de modificación acordes con la sem´ antica de cada campo, esa labor puede realizarse en una simple l´ınea de c´ odigo para cada uno de esos campos. 67

2.2.5.

Env´ıo de formularios

Una vez que un formulario se encuentra ya relleno, la información recogida en él puede ser enviada al servidor para que sea procesada. En el caso de la navegaci´ on manual, se trata de una labor semiautom´ atica, asistida por el browser, donde la labor del usuario se reduce a seleccionar un botón de env´ıo (en el caso en el que haya varios) y pulsarlo. En el caso de la navegación automática, esta acci´ on se encuentra ya completamente pre-construida por las primitivas de varias bibliotecas utilizables desde distintos lenguajes de programaci´ on para lanzar comandos GET o POST, por lo que t´ıpicamente apenas se necesita programar y parametrizar la llamada a esta primitiva.

2.2.6.

Procesamiento de datos

Una vez que los datos del Web han sido recuperados, y homogeneizados a un formato estructurado, su manipulación no dista de la que puede haber en cualquier tarea de tratamiento de datos (no necesariamente involucrada en el Web). Operaciones tales como comparaciones, acumulaciones, reordenaciones, operaciones aritméticas o lógicas o de procesamiento de textos pueden ser combinadas seg´ un las necesidades espec´ıficas de manipulación de información que requiera la tarea. En el caso de la navegación manual, el procesamiento que t´ıpicamente realizan los browsers a las páginas que recuperan del Web se limita a la mera visualización en las pantallas de los ordenadores, facilitando, eso s´ı, el control de todos los aspectos visuales y permitiendo al usuario la posibilidad de solicitar nuevos documentos del Web mediante el resaltado en la visualización de zonas activables del documento por el usuario mediante teclado o ratón para el seguimiento de enlaces. Cualquier otro tipo de procesamiento queda delegado en el usuario. Muchas veces, ciertamente, estos tratamientos de datos en el Web son comparaciones sencillas o labores que manejan poca información, pero, cuando el volumen de datos es algo elevado, o cuando el tratamiento que se pretende realizar con esos datos empieza a incluir operaciones aritmético-lógicas un poco más complicadas que las simples comparaciones detectables a simple vista y que escapan del fácil cálculo mental, el procesamiento manual de esos datos se convierte en una labor realmente tediosa. En el caso de la navegación automática pueden definirse rutinas que pro68

cesen esos datos de otra forma más adecuada para las tareas. Mediante la programación de rutinas definibles por el usuario, que reciban por argumento los datos obtenibles durante la navegación, el tratamiento de estos datos puede ser realizado por el ordenador. Simplemente deberán procesarse los datos relevantes que se encuentran almacenados en repositorios programables, conforme a los objetivos establecidos en la tarea. También es posible que esos procesamientos puedan estar ya implementados en alguna herramienta externa. En esos casos, el tratamiento consistirá en invocar a esa herramienta como un proceso externo, enviarle los datos para que los procese y esperar de ella los resultados. En el mejor de los casos, el procesamiento puede ser tan sencillo como la simple impresión por pantalla de unos simples datos obtenidos, para lo cual es posible programar esos comportamientos con sentencias sencillas dentro del mismo programa principal. La elección sobre dónde programar este tipo de comportamientos dependerá de la complejidad de los mismos, del hecho de que ya pudieran estar programados en alg´ un programa legado y de la capacidad del programador para reutilizar ese código. En el caso de la navegación manual basada en browsers, el usuario es el responsable de realizar este procesamiento de datos, normalmente de forma mental y sin soporte por parte del browser. En el caso de la navegaci´ on automática, al tratarse de un tratamiento espec´ıfico y dependiente de los datos, y de la tarea que lo va a utilizar, esta acci´ on no se encuentra pre-construida en una biblioteca genérica de la plataforma, por lo que debe ser programada en rutinas definidas por los usuarios, que no necesariamente ser´ an dependientes de la cambiante estructura de las p´ aginas al haber sido los datos convenientemente estructurados en una fase anterior.

2.3.

Subsanaci´ on de las faltas de soporte de la plataforma de navegaci´ on

Finalmente, tal y como se verá en el apartado 3, no todas las plataformas tienen un soporte completo a la ejecución de aspectos de navegación. Por ejemplo, muchas plataformas carecen de soporte a la interpretación de rutinas JavaScript, que se encuentran habitualmente embebidas en las páginas visitadas. En estas plataformas no está soportada, por lo tanto, la navegación basada en JavaScript, en la que las URL que deben visitarse no figuran expl´ıcitas en los enlaces que se pretende seguir, sino que dichas direcciones deben computarse por alguna rutina JavaScript activable por alg´ un evento provocado por el usuario con el ratón o el teclado. Para poder navegar en 69

estos sitios desde este tipo de plataformas, el programador debe subsanar con sus propias l´ıneas de código las acciones que simulen el comportamiento de esas rutinas JavaScript. En otras plataformas no existe un conveniente soporte de las cabeceras HTTP o una adecuada creación del conveniente query-string a partir de cada formulario relleno, por lo que el usuario debe programar estos comportamientos impl´ıcitos con su propio código. Todas aquellas acciones que, no teniendo soporte en la plataforma, sean significativas para la navegación, deben ser suplidas con código definido por el usuario. Dicho código suele tener un coste significativamente elevado. Por esta razón, y para minimizar este coste, es importante, por lo tanto, escoger una buena plataforma de navegación. Soporte de los browsers a las acciones b´ asicas expl´ıcitas Tal y como puede verse en la tabla 2.5, en la navegación manual, el browser da un soporte semiautomático a tres de las acciones más sencillas (seguimiento expl´ıcito de enlaces y rellenado y env´ıo de formularios), dejando al usuario la responsabilidad de realizar las otras acciones sin ning´ un tipo de asistencia por parte del browser. Desde la extracción de datos relevantes hasta el procesamiento que pueda necesitar realizarse sobre esos datos, el usuario que utiliza browsers es quien debe encargarse de todo.

70

Cap´ıtulo 3 Estado de la cuesti´ on En este cap´ıtulo se realiza un repaso de los principales conceptos y técnicas desarrolladas hasta el momento en el ámbito de la integración de datos semiestructurados, as´ı como de otras técnicas, no ya de automatización de tareas en el Web, sino, más genéricamente, de navegación automática en el Web.

3.1.

Consideraciones previas

Antes de comentar esos trabajos aplicados al tema espec´ıfico de la automatización de tareas en el Web, conviene mostrar cómo algunos sitios Web afrontan actualmente el uso de sus aplicaciones. Algunos sitios Web, muy pocos en términos relativos, proporcionan aplicaciones ejecutables alternativas a los browsers para proporcionalidad una mayor facilidad de manejo a aquellos usuarios que realizan un n´ umero elevado de transacciones. En estos casos, lo habitual suele ser que los desarrolladores de la aplicación proporcionen al usuario una forma de acceso indirecto a la aplicación con la que interact´ uan de forma que el interfaz no esté basado en el browser, sino que en un programa ejecutable capaz de automatizar varias de estas transacciones minimizando parcial, pero sensiblemente, la interactividad solicitada al usuario. Por ejemplo, eBay [6] o el antiguo QXL (recientemente fusionado con Aucland [1]) han proporcionado a sus mejores vendedores una aplicación ejecutable (para uso exclusivo en entornos Windows) que permite la publicación de m´ ultiples subastas en la red con un sólo click 71

de ratón. Por otro lado, algunas operadoras de contratación de acciones en bolsa, como por ejemplo Consors [4] proporcionan a sus clientes una interfaz Java (normalmente un applet ejecutable en el navegador) para facilitar a sus usuarios más activos una plataforma de introducción de órdenes de compra-venta más manejable que el browser cuando se trata de un n´ umero elevado de operaciones o se requieren algunas funcionalidades como información en tiempo real. Si bien la elección de la plataforma tecnológica puede ser muy dispar (existen igualmente soluciones basadas en controles ActiveX y otras variantes), lo cierto es que este tipo de aplicaciones a veces no proporcionan una funcionalidad completa, ya que en ocasiones se limitan las opciones de la versión interactiva basada en HTML y en la comunicación a través del browser, por lo que fácilmente pueden no contemplar todas las funcionalidades que desean los usuarios. Por otro lado, muchas de las páginas que necesitan ser accedidas, no tienen una interfaz especialmente amigable cuando se les usa desde otro tipo de browser distinto a aquél para el que han sido dise˜ nadas. Dicho de otra forma, sus páginas son poco accesibles. En cualquier caso, pocos dise˜ nadores de sitios Web están dispuestos a facilitar que sus páginas sean navegadas por programas automatizados (robots) en lugar de por personas usando browsers. Sin duda influyen más razones sociológicas (miedo a perder atracción en la publicidad, miedo a que los contenidos propios sean aprovechados por terceros para hacer negocio sin que el verdadero propietario reciba beneficios, ...) que técnicas (miedo a ver sobrecargada la capacidad de respuesta de los servidores).

3.2.

Automatizaci´ on de aplicaciones interactivas

Sin duda, estos problemas (el de la menor funcionalidad de las opciones no interactivas de las aplicaciones y el de la baja amigabilidad del interfaz de algunas aplicaciones) afectan al ámbito de la automatización, pero no sólo a la del Web, sino, en general, al de cualquier aplicación dise˜ nada para ser usada de forma interactiva. Dado que la problemática de la automatización de aplicaciones interactivas [149] es anterior al nacimiento del mismo Web, conviene sin duda analizar algunas de sus conclusiones más relevantes para aprovechar as´ı la experiencia desarrollada. 72

3.2.1.

Lenguaje Expect

Aunque existen m´ ultiples trabajos enfocados en la automatización de aplicaciones interactivas en varios entornos, de todos ellos destaca sin duda expect [84]. En expect, mediante la utilización de un nuevo lenguaje de scripting espec´ıfico similar al de un shell, se permite realizar fácilmente el control de programas interactivos lanzados en entornos Unix que estén preparados para leer del teclado de una terminal. A diferencia de una shell normal, expect resulta especialmente u ´til para emular al usuario desde el teclado cuando este tipo de fuente de datos no puede ser fácilmente redireccionado a un fichero para lectura o cuando es necesario responder adecuadamente a un prompt en un diálogo con la aplicación interactiva, con peticiones del programa y respuestas que deben introducirse por teclado en el momento en el que el programa interactivo las solicita. Tal y como reza en ese trabajo, los tradicionales shells Unix tienen, sobre las aplicaciones que invocan, un control que se limita a la creación, espera y destrucción de procesos, as´ı como las opciones con las que deben ser invocados al principio y el redireccionamiento a/desde ficheros pero no tienen apenas control sobre aquellos programas que necesitan interactividad durante su ejecución, dejando esa tarea relegada a que el usuario introduzca esos datos desde teclado. Mediante una filosof´ıa de lanzamiento de ejecuciones similar a la de los shells, pero con extensiones para controlar la ejecución interactiva de estos programas, aplicaciones que hasta ese momento sólo pod´ıan usarse de forma interactiva, como telnet, ftp, passwd, rlogin, crypt, fsck, sudo o incluso otras para las que pod´ıa emular al usuario ante otro usuario, como por ejemplo talk, y en general, cualquier aplicación (incluyendo las que se pudiera construir el usuario por su cuenta) que pudiera ser usada de modo interactivo desde teclado, pueden ser controladas automáticamente desde un programa capaz de entender y proporcionar los datos que cada una de esas aplicaciones muestran y solicitan del usuario de forma interactiva. Para ello, se emula al usuario sustituyéndolo por la aplicación de un conjunto de reglas condicionales capaces de detectar los distintos casos de peticiones esperables por las aplicaciones interactivas y as´ı asociar a cada regla un conjunto de acciones de respuesta. El lenguaje desarrollado en ese trabajo, llamado expect, actualmente instalado en muchas distribuciones de sistemas Unix, está basado en la sintaxis de TCL [97] y, entre las conclusiones reflejadas en [84] destaca, para ilustrar su uso con un ejemplo, como el script de la figura 3.1, dise˜ nado para controlar mediante el diálogo interactivo con la aplicación Unix ftp el acceso a un sitio ftp anónimo, sustituyó a un programa equivalente (que hac´ıa lo mismo) es73

crito en lenguaje C, pero que ten´ıa un tama˜ no aproximado de 60K. El script de la figura 3.1 espera a recibir la palabra Name del programa ftp antes de enviarle la palabra anonymous de la misma forma a la que espera a estar identificado correctamente antes de lanzar una petición de transferencia de ficheros. #! /usr/bin/expect -f spawn ftp [index $argv 1] expect "*Name*" send "anonymous\r" expect "*Password:*" send [exec whoami] expect "*ok*ftp>*" send "get [index $argv 2]\r" expect "*ftp>*"

Figura 3.1: Script Expect para controlar ejecución interactiva de ftp Quizá lo más llamativo de expect como lenguaje sea sin duda la gran diferencia de tama˜ no existente entre la solución escrita en él y la escrita en C, ambas para solucionar el mismo problema. La diferencia de tama˜ no se puede justificar en el hecho de que C es un lenguaje de programación imperativo de uso genérico, mientras que expect es un lenguaje de scripting de alto nivel de programación y orientado al mantenimiento del control del diálogo con cualquier aplicación y capaz de proporcionar distintas respuestas a la aplicación dependiendo de lo que ella muestre a su salida. expect es, por lo tanto, un claro ejemplo de lenguaje con un nivel de abstracción lo suficientemente elevado como para poder ser usado casi a nivel de especificación de requisitos. Sin embargo, un lenguaje para la automatización, pese a que disponga de un alto nivel de abstracción, para poder ser aplicable a cualquier herramienta interactiva, debe ser capaz de controlar aspectos de bajo nivel. Para mostrar la flexibilidad del lenguaje expect en este sentido, el script de la figura 3.2 ilustra la capacidad de emulación de un usuario ficticio capaz de dialogar con otro (en un diálogo muy sencillo, pero que podr´ıa ser fácilmente adaptable) mediante el uso de la conocida herramienta talk de entornos Unix. El nivel de control de talk en este caso llega incluso a controlar aspectos como un modelo de tiempos variables entre pulsaciones de las teclas, dando al usuario que está al otro extremo de la comunicación la ilusión de que realmente está dialogando con una persona pese a que en realidad no deja de ser un programa que emula a un usuario. No ya en una aplicación como talk sino en cualquiera donde el n´ umero de posibles salidas pueda ser conocido, un conjunto completo de reglas y acciones que act´ uen en consecuencia pueden 74

automatizar completamente la gestión de una aplicación interactiva. #! /usr/bin/expect -f spawn talk usuario@dominio set timeout 200 expect "*established*" set send_human {.1 .3 1 .05 2} send -h "This is only a test.. I swear \ Please don’t bust me with expect" expect "*\r*" exec sleep 5 send -h "Ok, well see ya tomorrow . Bye\n" exec sleep 3

Figura 3.2: Script Expect para controlar ejecución interactiva de talk En resumen, expect aporta, para el manejo de aplicaciones interactivas, un lenguaje de scripting con las siguientes caracter´ısticas: Alto nivel de abstracción Con orientación al diálogo con aplicaciones existentes Que reduce sustancialmente el tama˜ no y, por lo tanto el esfuerzo para crear y mantener, de aplicaciones capaces de automatizar a otras Capaz de automatizar prácticamente cualquier aplicación interactiva textual (no gráfica) Capaz de analizar la información que proporcionan las aplicaciones interactivas y estructurar su comportamiento basándose en esos casos Capaz de asociar acciones a cada uno de los casos que se espera que proporcione la aplicación interactiva Capaz de permitir al usuario gran flexibilidad para que defina sus propias reglas y sus propias acciones Capaz de emular al usuario controlando aspectos de bajo nivel Basado en la sintaxis de alg´ un estándar conocido Estas caracter´ısticas han sido tenidas en cuenta para la automatización de tareas en el Web en el apartado 6. 75

3.3.

Web Sem´ antico

Uno de los grandes problemas del Web actual, desde el punto de vista de su procesamiento automatizado, es que está basado principalmente en HTML (formato dif´ıcil de entender por las máquinas al estar muy orientado a la mera visualización conforme al apartado 1.4.3). Teniendo esto en cuenta junto al hecho de que se espera que XML a´ un tarde varios a˜ nos en implantarse como formato para los documentos en el Web, desde el W3C se ha estado promoviendo en los u ´ltimos a˜ nos una ambiciosa iniciativa denominada el Web Semántico [32]. El objetivo del Web Semántico es el de permitir la navegación automatizada por parte de programas capaces de entender el significado de los datos que aparecen en las páginas del Web, gracias al hecho de que a éstas les acompa˜ nan unos metadatos (t´ıpicamente basados en RDF [123] u OWL [140]) capaces de asociar un significado a cada una de las partes del documento, describiendo con ontolog´ıas los datos que aparecen en las páginas Web. Las páginas as´ı descritas con los correspondientes metadatos pueden ser asimilables a bases de datos procesables por cualquier tipo de programa. As´ı pues, un agente inteligente basado en motores de inferencia capaces de procesar los metadatos descriptivos de una página puede encontrar para el usuario la información que satisfaga sus requisitos de b´ usqueda con un mayor criterio que la simple b´ usqueda por palabras clave, cuando se busca en un conjunto de páginas unidas entre s´ı por hiperenlaces. Siendo el Web Semántico una opción realmente prometedora para el futuro del Web y de la construcción dinámica de caminos de navegación, guiada por la consecución de objetivos, lo cierto es que todav´ıa es una tecnolog´ıa incipiente a la que a´ un le falta por demostrar sus capacidades en entornos complejos, habiendo sólo sido probada en entornos sencillos como [102]. En [64] se cuestiona cómo un Web dinámico puede tener asociadas páginas de metadatos estáticas, estableciendo diferencias entre las semánticas estáticas de estos ficheros declarativos creados aparte por personas y las semánticas dinámicas necesarias para manejar los datos del Web, que normalmente se dan en el contexto de un lenguaje de programación, abogando as´ı por soluciones no precisamente declarativas. Por otro lado, las necesidades de los usuarios son mucho más complejas que aquellas a las que puede dar respuesta un buscador. Una vez delante de la página en la que debe empezar a trabajar, es necesario desarrollar una tarea cuyos pasos son normalmente conocidos por los usuarios y no es necesario que sean deducidos. En lugar de definir programas envoltorio, com´ unmente conocidos como 76

wrappers para cada fuente de datos accedida, el Web Semántico propone la utilización de programas de navegación genérica capaces de autoprogramar su navegación a cualquier sitio Web conforme a la información suministrada por los metadatos de ese sitio Web. Ello supone, en la práctica, delegar cualquier automatización de tareas en la construcción de una adecuada metainformación de un sitio Web, capaz de dirigir el comportamiento de estos programas de navegación genérica por ese Web de forma similar a la que lo navegar´ıa un programa envoltorio. El Web Semántico está en un estado a´ un inmaduro y carece del soporte necesario de muchas herramientas. Por otro lado, la mayor´ıa de las páginas del Web también carecen de los correspondientes metadatos, y eso es algo que tardará tiempo en paliarse aun cuando el Web Semántico recale en la construcción de Webs. Por todo ello, es previsible que la utilización de las técnicas del Web Semántico tardarán a´ un bastante tiempo en poder explotarse masivamente en Internet para la automatización de tareas en el Web.

3.4.

Mecanismos de construcci´ on de programas de navegaci´ on automatizada

Los siguientes trabajos abordan de una u otra medida el tema de la automatización de la navegación en el Web. En buena parte de los proyectos en los que se desarrollan trabajos para la especificación de aplicaciones para la Web, la gran mayor´ıa de los esfuerzos se vuelcan en la especificación de aplicaciones accesibles desde el Web que sean funcionales y no produzcan errores a sus usuarios. Ejemplos de esta alternativa son XL [59] y Dicons [27] donde se definen lenguajes de especificación para la Web, pero en el lado del servidor, no en el lado de un cliente que desee automatizar el uso de esas mismas aplicaciones. Otros trabajos, como WebML [50] intentan aplicar el modelo Entidad-Relación de las bases de datos relacionales a ciertas páginas del Web. Tal modelado resulta enriquecedor en el sentido de que aporta una visión muy descriptiva y detallada del esquema de datos usado al publicar muchas de las páginas Web existentes hoy en d´ıa. Sin embargo, estas aproximaciones no son utilizables en los casos en los que las páginas y los datos contenidos en las mismas no siguen unas normas establecidas asimilables a las de un modelo Entidad-Relación. WebML se presenta como una aportación desde el punto de vista de los dise˜ nadores Web y de la publicación estructurada y descriptiva de las páginas, sin abordar el tema de la integración de datos semiestructurados por parte 77

de sus usuarios o lectores. Ya en el terreno del desarrollo de clientes Web que naveguen automáticamente, las herramientas más usadas para la automatización de la navegación de enlaces en el Web suelen ser programas completos (disponibles con m´ ultiples opciones de ejecución) para descargar documentos del Web o realizar otro tipo de acciones sencillas desde la Web superficial. Muy usado en este sentido es Wget [20], pese a que sólo sirve para descargar documentos. Algunas herramientas como Curl [5] permiten un uso más avanzado al ofrecer al usuario la posibilidad de manejar también formularios además de enlaces, eso s´ı, solicitando al usuario datos de bajo nivel como el query-string que se debe enviar, en lugar de crearlo él a partir de una estructura de datos que represente a un formulario relleno. Estas u ´ltimas no ofrecen la posibilidad de recibir establecido el guión de una sesión completa HTTP más allá de una sola transacción, por lo que la secuencia de acciones de la tarea sólo puede ser especificada desde fuera de la herramienta, mediante llamadas a la misma, t´ıpicamente en un lenguaje de intérprete de comandos (shell) del propio sistema operativo, y siempre que no sea necesario el manejo de aspectos de bajo nivel, como son las cookies [95]. Algunas herramientas, como Veriweb [30], s´ı son capaces de seguir más de un enlace y formulario en una u ńica ejecución, pero se limitan a realizar pruebas de ejecución sobre herramientas accesibles desde el Web, siguiendo sus enlaces y testeando que los caminos o tareas que cada una de esas aplicaciones permite realizar desde cada una de sus páginas no produzca errores en la aplicación del servidor ni provoque que al cliente le lleguen páginas de error (que son indeseables para muchos sitios comerciales porque menguan futuras visitas al site). En cualquier caso, no permiten al usuario la automatización de una tarea concreta, sino que recorren todos los caminos encontrables probando con distintos datos para rellenar los formularios, por lo que sus algoritmos de fuerza bruta no resultan adecuados para la automatización de tareas condiderables de utilidad para los usuarios. Por otro lado, existen varias bibliotecas [39, 35, 23, 112, 118] sobre varios lenguajes de programación (Prolog, Perl, Java, C, ...) que s´ı permiten la ejecución de una secuencia preprogramada de transacciones Web, combinada a su vez con la extracción de datos desde documentos XML obtenidos por la red. En ocasiones, más que bibliotecas para alg´ un lenguaje de programación, se proponen lenguajes propiamente de consulta para el Web [26, 51, 37, 93, 85]. Sin embargo, la gran mayor´ıa de estas bibliotecas o lenguajes no permite el diálogo con servidores del Web legado por su falta de manejo de ciertas acciones impl´ıcitas que realizan los browsers sin que el usuario sea

78

consciente de ello, como las mencionadas en el apartado 2.1. También suelen aplicar técnicas de extracción de datos como son las expresiones regulares y la definición de analizadores léxicos que tratan a esas páginas como texto plano, sin estructura y que han sido utilizadas en trabajos como [47, 46, 57, 49, 100, 99, 98, 48, 45, 88]. Sin embargo, ninguna de estas soluciones propone una extracción de datos semiestructudados basada en XPath. A lo sumo, algunas de ellas, como [29, 80] definen sus propias primitivas de extracción de datos, pero en ning´ un caso basadas en el estándar del W3C. Otras técnicas, como [81, 54, 80] resuelven bien la parametrización de acciones impl´ıcitas (ver apartado 2.1). Sin embargo, dejan no muy bien cubiertos desde el punto de vista de la mantenibilidad, aspectos tan importantes como lo es la extracción de datos del Web, una vez que la página que contiene finalmente los datos ha sido recuperada. Desde el punto de vista de las aportaciones hechas por el W3C, varias técnicas, como XSLT [130] o DEL (Data Extraction Language) [133] han sido propuestas para la obtención en formato XML de datos extra´ıbles de otros documentos XML mediante reglas de extracción y transformación. Ambas definen etiquetas para crear fácilmente lenguajes de script que sean fácilmente interpretables. Sin embargo, carecen de mecanismos para indicar la forma de obtención de los documentos de los cuales deben extraerse los datos. Por una parte, resulta interesante el enfoque que toman [54, 133, 130, 82] de definir lenguajes de programación sobre sintaxis XML en donde hay etiquetas capaces de representar variables, bucles, condiciones, y otros tipos de acciones. Este tipo de lenguajes de programación, definidos sobre esta sintaxis es fácilmente interpretable por varios programas y muy fácilmente analizable. En el W3C, el tema de la extracción de datos se ha centrado u ´ltimamente en la definición del lenguaje de consulta XQuery, una extensión de XPath 2.0 (en realidad un superconjunto) que permite la consulta para la extracción de datos de cualquier documento XML, con funcionalidades avanzadas similares a las de otros lenguajes de consulta de bases de datos relacionales, como SQL [78]. Sin embargo, estas iniciativas, pese a que ofrecen muy buenas soluciones para ese problema (de hecho ésa es la razón por la que en esta tesis se haya partido de XPath 2.0 para crear un lenguaje de consulta y manipulación), no se enfrentan al tema de cómo obtener los documentos XML del Web ni tampoco acerca de cómo integrar los datos que aparezcan repartidos en distintos documentos. De entre los u ´ltimos proyectos más avanzados para ser aplicados al Web legado, puede destacar [94, 111], en el que se aplican modernas técnicas de 79

extracción de datos semiestructurados a las páginas HTML, a páginas corregidas con Tidy [104]. En [94] se usa XSLT y en [111, 25] se considera al Web como una base de datos lo suficientemente estructurada como para poder usar lenguajes de consulta de bases de datos como XQL, un lenguaje de consulta predecesor de XQuery. Gracias a herramientas como Tidy, algunos usuarios pueden usar herramientas de evaluación de expresiones XPath como [21] sobre el Web legado. Sin embargo, tres importantes factores no han sido tenidos suficientemente en cuenta por estos trabajos. En primer lugar, no solventan adecuadamente las dificultades que afronta escoger XSL como lenguaje de manipulación de datos (se generan documentos de salida en lugar de manipular el árbol del documento y permitir el almacenamiento de sus partes en repositorios programables). En segundo lugar, no incorporan mecanismos de mejora a la robustez ante fallos, como los muy convenientes Service Combinators [40], siendo poco adecuados para la extracción de datos en páginas con estructuras de marcado cambiantes e irregulares. En tercer lugar, ninguno tampoco se ha enfrentado a´ un al uso del nuevo borrador de XPath 2.0 definido por el W3C para este fin, que incluye muchas e importantes mejoras respecto de la versión actual del estándar que salió a la luz en 1999. Otros trabajos, como RoadRunner [55], pretenden aplicar algoritmos para generar automáticamente wrappers a partir de documentos de entrada. Pese a que ello supone un interesante enfoque capaz de minimizar los problemas de la generación manual y del mantenimiento de estos wrappers, la casi total falta de estructura esperable en los documentos del Web provocan que este tipo de soluciones sólo funcionen adecuadamente con ejemplos muy sencillos y muy regulares en su estructura, lo cual no siempre se puede es fácilmente encontrable en las aplicaciones del Web cuyo uso se desea automatizar. Finalmente, uno de los más completos trabajos realizados hasta el momento en el campo de la integración de datos en el Web corresponde sin duda a [31], donde se tienen en cuenta muchos factores adecuadamente escogidos que facilitan el desarrollo de programas envoltorio por personas con pocas capacidades de programación. Una herramienta de fácil utilización permite dotar a estos programas de la conveniente robustez ante cambios en las páginas, minimizando los costes de su mantenimiento. En ese trabajo, dos lenguajes han sido desarrollados y soportados para dos propósitos bien distintos, pero complementarios entre s´ı: la obtención de documentos del Web 80

(mantenimiento del diálogo en una sesión HTTP con servidores Web) y la extracción de datos relevantes de cada uno de esos documentos. El primero de los lenguajes, NSEQL, es un lenguaje de alto nivel de abstracción en el que se indica la secuencia fija y preestablecida de acciones que deben activarse en un módulo navegador, una tras otra, para obtener del Web los documentos involucrados en una tarea. En dicha secuencia de acciones, se hace t´ıpicamente una referencia impl´ıcita al elemento o documento activo seleccionado por alguna acción anterior, de forma que, además de las acciones de seguimiento de enlaces, env´ıo de formularios y rellenado del valor de sus campos, se contemplan otras más propias de la orientación a un browser como la focalización de documentos, formularios o elementos que quedan seleccionados como activos para que las siguientes acciones los puedan tomar como referencia. Otro lenguaje, llamado DEXTL se encarga de extraer los datos relevantes de cada una de esas páginas, de forma que el uso combinado de ambos lenguajes permite la automatización de prácticamente casi cualquier tarea en el Web. Sin embargo, algunas caracter´ısticas de estos lenguajes podr´ıan ser mejorables. Para empezar, DEXTL es un lenguaje desarrollado para un generador de analizadores léxico-sintáctico propio, basado en expresiones regulares y en reglas gramaticales que indican la estructura esperada del texto para ser as´ı correctamente reconocido y de esa forma poderle aplicar las correspondientes reglas de extracción de datos. Una opción quizá más interesante, podr´ıa haber sido la de aplicar tecnolog´ıas como XPath para poder seleccionar adecuadamente los nodos relevantes del documento. Ello supondr´ıa cierta pérdida de flexibilidad (XPath no podr´ıa ser aplicable a cualquier fichero de formato textual, como DEXTL s´ı lo permite), pero habr´ıa proporcionado quizá un mayor grado de robustez a las expresiones de extracción de datos en documentos HTML, puesto que una expresión XPath ocupa t´ıpicamente una u ńica l´ınea de código fácilmente entendible, en lugar de las varias que se necesitan para poder crear una expresión DEXTL equivalente. Por otra parte, el API de primitivas desarrolladas para NSEQL está demasiado particularizado para los eventos propios de un navegador. Pese a que proporcionan un avanzado esfuerzo por representar adecuadamente en el correcto nivel de abstracción las acciones que forman parte de la secuencia de eventos que un usuario genera con un browser durante un proceso de navegación, es decir de acciones básicas como las mencionadas en la tabla 2.5, este API podr´ıa haber sido un poco 81

más simplificado, ortogonalizado para hacerlo independiente de los elementos concretos de HTML y sus posibles eventos, y reorientado a la robustez. Dado que NSEQL no se basa en un modelo de datos como el de XPath, sino en los elementos y documentos activos que un navegador puede tener en cada momento, muchas de las funcionalidades del API se basan en la aplicación de alg´ un evento a alg´ un tipo concreto de elemento o atributo de HTML. Existe una función para seguir enlaces de anchors, que sin embargo no sirve para seguir enlaces de otro tipo de elementos, como areas (es decir, mapas de imágenes), que también tienen enlaces que a veces interesa poder seguir. La existencia de una referencia impl´ıcita al elemento o documento previamente seleccionado, y la ausencia de asociación expl´ıcita de nombres a las páginas previamente visitadas, impide, por ejemplo, que una misma página visitada con anterioridad a la página actual pueda ser reutilizada sin tener que abandonar el contexto de la actual. Por ejemplo, dentro de un bucle en el que ciertas páginas con formularios deban ser revisitadas para emprender con ellas el procesamiento de un nuevo conjunto de datos en una labor repetitiva, resulta necesario emular la acción Back del navegador, que puede implicar traerse una nueva versión de la página en lugar de reutilizar la que previamente hab´ıa sido obtenida. Por otro lado, buena parte de las funciones del API necesitan recibir combinaciones de tres datos, t´ıpicamente un texto, un booleano y un n´ umero entero, indicando que se desea escoger el enésimo elemento de una lista de posibles que cumplan el tener al texto, bien contenido de forma exacta, bien contenido como subcadena, bien como texto, bien quizá en alg´ un atributo concreto, todo ello dependiendo del argumento booleano y del nombre concreto de la función a la que se invoque. Dicho de otro modo, existen funciones para buscar elementos por texto o por algunos atributos, pero no para seleccionar elementos que cumplan una combinación arbitraria de cualquier nivel de complejidad con varios de ellos, abstrayéndose de nombres concretos de etiquetas o atributos particulares de HTML, como s´ı permiten los predicados de XPath. Por otro lado, el rellenado de formularios se plantea igualmente con un conjunto predefinido de funciones, cada una de las cuales permite realizar una acción concreta y predefinida sobre un tipo concreto de campo de formulario, cuando ser´ıa mucho más simple y flexible, aunque quizá también de más bajo nivel, permitir la modificación genérica de cualquiera de sus atributos. Por ejemplo, una de las funciones permite 82

rellenar un campo de texto de un formulario (modificando su atributo value, se entiende). Otras funciones permiten seleccionar la opción de una lista de opciones posibles. Por el contrario, no existen funciones para cambiar otros tipos de atributos influyentes en los campos de formularios, como checked o disabled. En prácticamente casi todas las funciones, es imprescindible la indicación de un n´ umero entero que indique la posición del elemento que se desea direccionar dentro de una lista de otros que cumplan una serie de caracter´ısticas. As´ı, por ejemplo, se puede seguir el séptimo enlace de una página, por ejemplo. Sin embargo, el criterio de la posición de un elemento dentro de su página es altamente sensible a cambios en las páginas HTML, pues en el momento en el que la página del servidor a˜ nada una nueva opción a la lista de opciones, las posiciones de éstas se ve irremediablemente trastocada, provocando que en la labor de mantenimiento de estos programas se deba proceder a la actualización de estos valores numéricos. Una selección basada en contenidos independientes de posiciones es más robusta o, en cualquier caso, más fácilmente mantenible. En cualquier caso, el API está más orientado a los eventos que espera recibir un browser gráfico como lo es Microsoft Internet Explorer, que al propio diálogo HTTP que espera el servidor al que se accede remotamente, puesto que no se dialoga directamente con el servidor sino que de delega esta labor a este browser concreto. Sin embargo, el uso de un browser gráfico en la plataforma de ejecución le aporta una indudable ventaja: y es que este sistema tiene incorporada la ejecución de rutinas JavaScript, algo que no tienen todas las plataformas de navegación automatizada.

3.4.1.

Uso de APIs est´ andares

Por otro lado, programar con APIs estándares tampoco es una garant´ıa de éxito si ello implica la utilización inadecuada de la tecnolog´ıa. Por ejemplo, en [115] se explica lo dificultoso que puede ser realizar un programa Java que extraiga datos de un documento XML tan sencillo como el de la figura 3.3. Un programa Java que use DOM y quiera extraer las direcciones (elementos address) de aquellas personas que coinciden con su argumento puede ser el que aparece en la figura 3.4. Teniendo en cuenta que existe una expresión XPath //address[child::addressee[text() = ’Jim Smith’]] capaz de 83

John Smith 250 18th Ave SE Rochester MN 55902 Bill Morris 1234 Center Lane NW St. Paul MN 55123

Figura 3.3: Ejemplo de documento XML sencillo

public Node findAddress(String name, Document source) { Element root = source.getDocumentElement(); NodeList nl = root.getChildNodes(); // iterate over all address nodes and find the one that has the correct addressee for (int i=0;i

Figura 3.6: Hoja XSLT que extrae datos de documento XML

86

3.5.

Conclusiones del estado de la cuesti´ on

La tabla 3.1 refleja un resumen de las tecnolog´ıas mencionadas en este cap´ıtulo, comparando unas con otras respecto a varios criterios comunes. La primera columna corresponde a las soluciones ad hoc, como [26, 51, 37, 93, 85], basadas en expresiones regulares y en plataformas creadas espec´ıficamente para resolver problemas concretos. La segunda columna se corresponde con la opción de usar un parser genérico tipo DOM al estilo del empleado en la figura 3.4, utilizable en una biblioteca utilizable desde un lenguaje de programación. La tercera columna, muy similar a la segunda, refleja la opción de usar JavaScript circunscribiéndose a un browser, en tanto que también usa DOM, salvo que con otra sintaxis distinta a la de Java. La cuarta opción se corresponde con plataformas al estilo de Xalan [62], es decir, parsers tipo DOM pero capaces de evaluar expresiones XPath, lo cual simplifica mucho la labor de programación, tal y queda reflejado en la figura 3.5. La quinta columna, se corresponde con la opción de usar WebL [80] y la sexta se corresponde con los resultados de esta tesis a efectos comparativos.

Ad hoc

Parser

JavaScript

Xalan

WebL

XPlore

Est´ andar

Exp. Reg.

DOM

DOM

XPath+DOM

No

MSC+XPath

Extracci´ on

Bajo

Bajo

Alto

Alto

Alto

Alto

Navegaci´ on

Alto

Alto

Browser

Alto

Alto

Alto

Plataforma

Mala

Mala

Browser

Mala

Media

Buena

Simplicidad

No

No

S´ı

S´ı

S´ı

S´ı

Rutinas

S´ı

S´ı

S´ı

S´ı

S´ı

S´ı

Robustez

No

No

No

No

S´ı

S´ı

Localizaci´ on

S´ı

No

S´ı

S´ı

S´ı

S´ı

Legibilidad

Mala

Buena

Buena

Buena

Buena

Buena

HTML legado

Ad hoc

Tidy

S´ı

Tidy

S´ı

Tidy

XML

Ad hoc

S´ı

No

S´ı

S´ı

S´ı

Cuadro 3.1: Resumen de las tecnolog´ıas utilizables

Como puede apreciarse, la extracción de datos presenta un bajo nivel de abstracción cuando se emplean expresiones regulares o un parser tipo DOM sobre lenguajes de programación convencionales (salvo la contada excepción de JavaScript). A pesar de que todas las opciones presentan un nivel de abstracción adecuado para representar las acciones navegacionales del protocolo 87

HTTP, pocas de ellas ofrecen un buen soporte a los aspectos de más bajo nivel de dicho protocolo (acciones impl´ıcitas mencionadas en el apartado 2.1), por lo que no son utilizables para el establecimiento de sesiones con servidores Web. Por otro lado, aunque de uno u otro modo, sea posible la utilización de rutinas de usuario para las acciones más complejas, no siempre es posible definir de forma simple el comportamiento en las acciones más sencillas. Por ejemplo, las soluciones ad hoc suelen basar casi todo su funcionamiento en rutinas definibles por el usuario. En cuanto a la robustez ante fallos en la conexión, pocas opciones ofrecen mecanismos de recuperación ante fallos. Por otro lado, la facilidad de localización de las zonas de código afectadas por un posible cambio en la estructura de las páginas puede ser complicada si se usa un parser tipo DOM, (debido al alto n´ umero de l´ıneas de código involucradas en cada acción) teniendo en cuenta, no obstante, que su legibilidad suele ser, pese a esa verbosidad, aceptable. Algo completamente distinto suele ocurrir con las expresiones regulares, que suelen concentrar en una zona de código muy concreta el lugar afectado por un cambio en las páginas, aunque sin embargo proporcionan una mala legibilidad de las mismas debido a su bajo nivel de abstracción. Finalmente, unas u otras opciones son aplicables a cualquier formato, tanto HTML del Web legado como XML, pudiendo requerir para ello herramientas externas como [104]. Como resumen, las soluciones actuales mencionadas en este cap´ıtulo adolecen de uno o varios de los siguientes problemas:

No basadas en est´ andares La mayor´ıa de los trabajos relacionados suelen afrontar el problema de la integración de datos semiestructurados desarrollando lenguajes ad hoc para propósitos espec´ıficos, cada uno de ellos adaptado a sus propios propósitos espec´ıficos. La gran mayor´ıa de ellos suelen estar basados en analizadores léxicos basados en expresiones regulares, aplicadas sobre los documentos como si fueran ficheros de texto plano, ignorando la estructura lógica de marcas del documento, al contrario que como ocurre con la utilización de otros estándares conocidos. Muchos de estos proyectos, o bien han sido abandonados, o bien han tenido poco éxito o repercusión en la comunidad, o bien están siendo explotados bajo un elevado coste de mantenimiento. Por el contrario, una solución basada en estándares resulta más fácilmente mantenible debido a una mayor legibilidad y un mayor nivel de difusión. 88

Bajo nivel de abstracci´ on Los trabajos que s´ı suelen optar por una solución basada en estándares suelen muchas veces tropezar con una inadecuada elección de la tecnolog´ıa que va a utilizar. As´ı pues, de los proyectos relacionados que s´ı han optado desde un principio por la utilización de estándares XML en sus desarrollos, la gran mayor´ıa ha escogido usar tecnolog´ıas como SAX [86], DOM [131] (o similares) [77, 72] o XSLT [130]. Cada una de estas tecnolog´ıas presenta diferencias importantes en cuanto a la potencia, eficiencia y nivel de abstracción. Por ejemplo, SAX tiene un nivel de abstracción muy bajo pero eficiente (´ util para tareas sencillas sobre datos voluminosos), mientras que el de XSLT es más elevado. Por otro lado, DOM resulta ser la técnica más potente de las tres, pero también la que requiere más conocimientos y experiencia, y por lo tanto, dedicación y recursos. XSLT, dise˜ nado como un lenguaje de especificación de transformaciones y, pese a su gran aceptación, resulta demasiado sofisticado y verboso cuando las reglas de transformación que maneja adquieren un poco de complejidad (muchos bucles, variables tipadas, condicionales y expresiones calculando valores temporales para ciertos cálculos), en cuyo caso un lenguaje de programación imperativo puede ser mejor opción. En cualquier caso, estas tres tecnolog´ıas adolecen de un mismo problema, y es que todas ellas comparten el hecho de requerir varias l´ıneas de código para una operación que en principio podr´ıa ser considerada como sencilla.

Baja escalabilidad Los sistemas desarrollados hasta el momento no intentan minimizar la complejidad del código particularizado de acceso a los servidores Web (código envoltorio) [83], por lo que los sistemas desarrollables con estas técnicas resultan ser muy poco escalables, es decir, muy costosos de desarrollar y mantener en cuanto el n´ umero de servidores a los que se accede crece.

Baja adaptabilidad ante cambios Los sistemas desarrollados hasta el momento no intentan favorecer, en las aplicaciones desarrollables con ellos, la adaptabilidad ante cambios en las páginas del Web. Por esa razón, es com´ un, que estas aplicaciones desarrolladas con estas técnicas acaben dejando de funcionar por la aparición de peque˜ nos y frecuentes cambios, muchos de ellos incluso imperceptibles para los usuarios si se accede con un browser. 89

Limitaciones en la capacidad de construcci´ on Buen n´ umero de funcionalidades, principalmente acciones impl´ıcitas necesarias para mantener correctamente la sesión con servidores Web, no están completamente contempladas por la gran mayor´ıa de plataformas de desarrollo existentes, por lo que muchos programas desarrollados acaban por no poderse utilizar de forma efectiva en numerosos servidores del Web legado. Alto coste de mantenimiento Los productos tienen una vida corta, normalmente hasta que el Web al que acceden cambie algo que rompa con las suposiciones establecidas impl´ıcitamente por el programador del código envoltorio, por lo que necesitan ser revisados cada poco tiempo, siendo además costoso localizar y corregir en el código del programa el cambio que ha provocado que la aplicación haya dejado de funcionar. Como el Web es un ente cambiante que evoluciona dinámicamente, resulta bastante imprevisible el momento en el que se va a detectar un fallo o el impacto que un cambio va a suponer en un algoritmo de navegación. Navegaci´ on superficial El denominado deep Web [110, 105], esto es, el Web obtenible del volcado de bases de datos, está a´ un por explotar convenientemente, ya que los sistemas de navegación existentes apenas permiten seguir enlaces fácilmente obtenibles, como los que tienen una URL estática o aquellos para los que no hace falta rellenar apenas formularios.

3.6.

Limitaciones de las tecnolog´ıas actuales

Buena parte de los proyectos que abordan el tema de la automatización de la navegación en el Web, al igual que este trabajo, reconociendo igualmente que quizás los beneficios de iniciativas como las de XML o la mejora de la accesibilidad tardarán en poderse apreciar, plantean sus propias soluciones directamente sobre las páginas HTML del Web legado. Buena parte de esos trabajos plantean sus principios considerando a las páginas Web como ficheros de texto plano, de forma que a las páginas Web obtenidas se les extraen los datos aplicando patrones basados en expresiones regulares ba90

sadas en el código HTML que rodea a cada dato que se desea extraer. Si bien la aplicación de expresiones regulares resulta ser una técnica lo suficientemente potente como para poder ser aplicada también a otros tipos de formatos textuales, lo cierto es que las expresiones regulares resultan ser una técnica de bajo nivel de abstracción, donde, toda vez que peque˜ nos aspectos sintácticos tales como la aparición inhabitual de m´ ultiples espacios en blanco o fines de l´ınea, la ambivalencia de comillas dobles y simples, la indistinción de may´ usculas y min´ usculas o el orden de aparición de los atributos de una etiqueta hayan podido ser superados, la legibilidad de esas expresiones se complica notablemente. Por otro lado, mediante el uso de esas expresiones regulares, la estructura de árbol de la página HTML no es considerada. Este hecho puede no suponer un problema si la estructura de la página HTML y la consulta que se le desea efectuar son lo suficientemente simples. No obstante, es deseable a veces poder aplicar patrones de extracción de datos a determinados fragmentos espec´ıficos de la página, es decir, a cierto n´ umero de subárboles que cumplan determinadas propiedades (porque se sabe que sólo se desea buscar en determinadas zonas relevantes de la página), en lugar de a todo el documento. Para estos casos, las expresiones regulares resultan ser bastante limitadas. Los u ´ltimos proyectos que abordan estos problemas han descubierto en la familia de especificaciones XML una tecnolog´ıa adecuada con el que poder enfrentarse al problema anterior de una forma mucho más elegante y robusta. Para poder aplicar este tipo de soluciones se necesita, no obstante, de un software capaz de reparar los errores sintácticos habituales en una gran cantidad de páginas Web. Dichos errores sintácticos, tales como la falta de cierre de etiquetas, el incorrecto anidamiento de las mismas o la ausencia de entrecomillado en los atributos deben ser corregidos en las páginas seg´ un éstas van siendo obtenidas de los servidores. Los documentos HTML as´ı obtenidos quedan transformados en sus equivalentes documentos XHTML [117] antes de poder aplicarles cualquier técnica XML. Si bien existen numerosos programas [58, 146] capaces de obtener una versión de la página donde se cumplan los principios de buena formación de XML, esto es, conforme a la sintaxis básica de XML, la herramienta Tidy [104] suele ser la más habitualmente usada. Los pocos trabajos que emplean el enfoque de reparación sobre la marcha de la sintaxis de los documentos (con herramientas como [104, 58, 146]), suelen aplicar a las páginas Web obtenidas, una vez ya corregidas, bien parsers tipo DOM [131] sobre los que aplicar directamente código programado en lenguajes convencionales de programación (t´ıpicamente Java), o bien hojas de estilo XSLT [130] para extraer de las páginas la información que les interesa. 91

Cuando las hojas de estilo XSLT no ofrecen toda la funcionalidad deseable para el problema que desean afrontar, estos sistemas suelen permitir la aplicación de funciones de usuario escritas en alg´ un lenguaje de programación convencional. Si bien la estructura declarativa de las hojas XSLT permite definir un gran n´ umero de tratamientos aplicables a los documentos XHTML de entrada, muchas veces el tratamiento aplicable a ciertas páginas requiere algo más que la simple extracción de datos en documentos de salida. Esa extracción por s´ı sola puede ser suficiente en tareas simples de recuperación de información, pero es insuficiente en aquellas tareas que deban manejar estructuras de datos que recopilen datos del usuario, como son los formularios. En ocasiones resulta necesaria la manipulación mediante inserción y borrado de nodos y/o atributos o la manipulación repetida de esos atributos en un mismo documento. Los formularios Web son muchas veces un claro ejemplo que demuestra, para la tarea de ser rellenados m´ ultiples veces, la necesidad de una manipulación sencilla y eficiente de peque˜ nas partes de un documento, donde la referencia de un u ńico árbol accesible representativo del documento sea constantemente visible sin la necesidad de estar creando y destruyendo subárboles mediante la aplicación de sucesivas hojas XSLT. Si bien XSLT es una solución entendible por numerosos programadores, el actual borrador de XPath 2.0 [141] está suponiendo serios replanteamientos acerca de lo que se espera que serán las futuras versiones de XSLT. Gran parte de la expresividad de XSLT 1.0 está sustentada en la capacidad de la robusta extracción de datos de XPath 1.0. XPath 2.0, gracias a la incorporación de nuevos operadores que no aparec´ıan en la anterior versión y su integración dentro del marco de XQuery [142] como lenguaje de consulta, está constituyéndose como un potente mecanismo de direccionamiento de datos en documentos XML, suficiente por s´ı mismo como para no necesitar la funcionalidad extra de XSLT a la hora de realizar integradores de datos semiestructurados. De hecho, XPath puede considerarse, a pesar de ciertas limitaciones de las que adolece, como un mecanismo de extracción y direccionamiento de mayor nivel de abstracción que el mero uso de expresiones regulares. Una de las contribuciones de este trabajo, de hecho, consiste, aparte de una plataforma de implementación que eval´ ua expresiones del borrador de XPath 2.0, en un conjunto de extensiones propuestas para extender XPath 2.0 con el fin de convertirlo en un lenguaje completamente funcional y eficaz para esta labor y otras, como la manipulación de documentos. Por otro lado, buena parte de los trabajos relacionados mencionados en la bibliograf´ıa han hecho uso de clientes simples del protocolo HTTP, la mayor´ıa de ellos disponibles fácilmente desde diversas bibliotecas o programas y en diversos lenguajes de programación. Si bien la mayor´ıa de ellos son ca92

paces de proporcionar una funcionalidad básica aceptable, lo cierto es que muchas de las técnicas actualmente empleadas por algunos servidores Web para mantener el concepto de sesión con los clientes que a ellos se conectan, resultan no ser tenidas en cuenta por estas soluciones. Si bien las cookies suelen tener un comportamiento genérico normalizado y es posible su fácil implementación en los clientes HTTP al estar bien recogidas y localizadas entre las cabeceras de este protocolo, otras técnicas, como ciertos identificadores de sesión, que se pueden encontrar ocultos entre los parámetros de las páginas Web, pueden fácilmente hacer malfuncionar el comportamiento de un cliente HTTP que no los contemple debidamente. Dicho de otro modo, los actuales clientes HTTP utilizables para los procesos de navegación automática tienen un bajo nivel de soporte para el conjunto de acciones impl´ıcitas que otras herramientas como los browsers gráficos s´ı realizan bien. Cabe destacar que aquellos enlaces que no figuran expl´ıcitos seg´ un las habituales normas de HTML, sino que funcionan como resultado de la computación de alguna rutina de JavaScript o similares, resultan especialmente problemáticos en tanto en cuanto prácticamente no existe ning´ un tipo de soporte para estos lenguaje en muchos de estos clientes HTTP. Ello provoca que para muchos usuarios la u ńica forma de acceder a determinados contenidos sea a través de un browser. Existen numerosos proyectos que han abordado la temática de la navegación automática y de la integración de datos del Web a lo largo de los u ´ltimos a˜ nos. Todos ellos, incluyendo el presente, se centran en la creación de wrappers o código de programa especializado en el tratamiento particularizado de cada fuente de datos. Afrontar el problema desarrollando un u ńico programa capaz de navegar en cualquier sitio Web, capaz a su vez de solventar todas las heterogeneidades de cada servidor, resulta algo impracticable en tanto en cuanto se necesita para ello introducir semántica necesaria para poder autodetectar la información necesaria para la navegación, manejando aspectos como sinónimos y reconociendo al momento los enlaces que se deben seguir y los formularios (campos incluidos) que se deben rellenar, lo cual resulta demasiado complicado incluso para tareas sencillas. El Web Semántico es una buena alternativa que intenta basar este reconocimiento semántico en el uso de metadatos que permitan ser utilizados para la deducción acerca de cómo efectuar las acciones básicas expl´ıcitas de la navegación (ver apartado 2.2). Sin embargo, el Web Semántico a´ un tiene importantes flecos que deben resolverse, y, en cualquier caso, no parece estar enfocado al Web legado, sino a un nuevo Web creado a partir de esos metadatos.

93

94

Cap´ıtulo 4 Selecci´ on de tecnolog´ıas para la automatizaci´ on de tareas en el Web En este cap´ıtulo se realiza un análisis acerca de las tecnolog´ıas concretas que han sido estudiadas para ser utilizadas en este trabajo y que de alguna u otra manera han planteado alguna contribución para facilitar la automatización de tareas en el Web. Todas ellas ya exist´ıan antes de la realización de este trabajo y pueden ser consideradas como estándares en sus respectivos campos de actuación, razón por la cual, este cap´ıtulo no presenta una contribución especial a esas técnicas, sino tan sólo una breve descripción de las mismas. Si acaso, una contribución original de este trabajo s´ı puede consistir en la adecuada combinación de cada una de ellas para resolver de la mejor manera posible el problema de la automatización de tareas en el Web, pero eso es algo que aparece desarrollado en los cap´ıtulos 5 y 6. Buena parte de las ideas reflejadas en esos cap´ıtulos proceden de las tecnolog´ıas descritas en éste. Estas técnicas están clasificadas en un método formal (Message Sequence Charts), cinco estándares del W3C, algunos de ellos ya evolucionados, como DOM, o XSLT (aunque existen borradores más avanzados de la versión que ha sido objeto de este estudio), otros a´ un en fase de borrador, como XPath 2.0, XPointer y XQuery, y finalmente un estándar de facto como lo es el interfaz SAX para programación sobre XML orientada a eventos. Hay que a˜ nadir que éstas no han sido las u ńicas tecnolog´ıas que han influido en el dise˜ no de la solución propuesta en esta tesis para la construcción de agentes Web. Otras tecnolog´ıas como el lenguaje de programación WebL o las expresiones 95

regulares con las que se pretende contemplar el vac´ıo que en ese aspecto tiene XPath, han influido igualmente realizando su propia aportación.

4.1.

MSC

Los Message Sequence Charts o Cuadros de Secuencias de Mensajes son representaciones gráficas de especificación de requisitos de dise˜ no de sistemas concurrentes y que muestran el intercambio temporizado de mensajes entre los componentes de un sistema. Los MSC constituyen representaciones abstractas, capaces de ser usadas en muy diversos ámbitos y siendo además fáciles de entender por mucha gente, incluso no expertos. Aunque en su nacimiento, los MSC estuvieron inicialmente pensados para representar el intercambio de se˜ nales entre componentes electrónicos de sistemas de telecomunicaciones, su incorporación a los formalismos establecidos por la ITU (International Telecommunication Union) de la mano de otro formalismo bien conocido como SDL (Specification and Description Language) [75] supuso una gran aceptación por muy diversos colectivos y muy variados usos, llegando a realizar importantes aportaciones al mundo de la ingenier´ıa del software, como lo demuestra su decisiva influencia sobre la representación gráfica de los diagramas de secuencia de UML [108], que pueden ser considerados como una versión orientada a objetos de los MSC con peque˜ nas diferencias que están intentando ser solventadas por las revisiones de ambas especificaciones. En esa misma referencia bibliográfica se apunta, por ejemplo, que los diagramas de secuencia son una particularización algo más práctica y orientada a la programación con objetos, mientras que los MSC tienen un fundamento mucho más teórico, vienen acompa˜ nados de una semántica formal y son aplicables a más campos que el de la orientación a objetos. De hecho, los MSC pueden aplicarse en otros muchos contextos aparte de los ya contemplados por SDL. Además de la importancia que conceden a la representación gráfica, los MSC incorporan la valiosa aportación de poder ser representados textualmente, de forma que resultan igualmente modificables y analizables por herramientas no gráficas. Dicha representación textual sirve de base para la definición de la semántica formal que incorporan los MSC y que les permite estar sujetos a la demostración automatizada de algunas propiedades de los escenarios reproducidos, como por ejemplo la imposibilidad de que determinado mensaje A sea enviado con antelación a la recepción de otro evento en el sistema, como la recepción de otro mensaje B en alg´ un otro componente o la ejecución de alguna acción. 96

Los MSC se han convertido en una potente técnica de especificación del comportamiento de un sistema desde el punto de vista de las interacciones de sus componentes. Al ser fácilmente entendible por no expertos en programación, suelen formar parte de los documentos de especificación de requisitos que se intercambian ingenieros y analistas con sus clientes, constituyendo una representación visual muy descriptiva de la interacción bajo distintos escenarios entre diversos componentes, especialmente entre aquellos que forman parte de un sistema distribuido. Los MSC pueden ser usados desde los primeros pasos del dise˜ no del software, gracias a lo cual, los errores detectados mediante su uso adelantado son resueltos con un menor coste que en etapas posteriores. En los u ´ltimos tiempos se ha motivado mucho el desarrollo de algoritmos para una variedad de análisis de MSC consistentes en la detección de condiciones de carreras, conflictos de tiempos, toma de decisiones no locales, o incluso capacidad de generación de autómatas finitos concurrentes que simulen el sistema modelado por el MSC, por lo que son varias las herramientas utilizables para analizar los problemas derivables en etapas de dise˜ no gracias al examen de los MSC. Desde el a˜ no en el que nacieron (1992) hasta la actualidad, los MSC ha venido incorporando nuevas funcionalidades en sucesivas ampliaciones revisadas por la ITU, la entidad que lo ha estandarizado. Los MSC se han convertido en una tecnolog´ıa particularmente u ´til en el modelado de las interacciones propias de protocolos en las comunicaciones, as´ı como también para la representación de llamadas a procedimientos o métodos, incluyendo RPC. Su interés ha suscitado también en los u ´ltimos tiempos, el desarrollo de herramientas capaces de transformar representaciones de MSC en otros tipos de formalismos de especificación, como SDL, Statecharts [71], o Promela [73]. Incluso, los MSC ya han sido empleados como método de especificación en el desarrollo de aplicaciones alojables en servidores Web, como ocurre con [27]. Los MSC presentan mejores habilidades para representar aspectos de interacción, intercambio de mensajes y concurrencia que otros métodos formales para el caso del Web frente a otros métodos formales como LOTOS [33], Estelle [116] or SDL [75]. A continuación se mencionan los componentes más importantes que se pueden encontrar en un MSC.

4.1.1.

Entidades

Están representadas por l´ıneas verticales, y modelizan cada uno de los componentes (hardware o software) que forman parte del sistema. Las l´ıneas 97

verticales que representan a los componentes sirven a su vez como eje temporal, de forma que aquellos eventos que se representan en la parte superior del dibujo de un componente le suceden a éste con anterioridad a los que están representados en las partes inferiores. Ello implica que ning´ un mensaje debe ser enviado o recibido y ninguna acción debe ser ejecutada por un componente del sistema hasta que, desde el punto de vista de su representación gráfica, no se hayan procesado todos los eventos anteriores que consten previamente en su representación. Una representación de tres entidades puede encontrarse en la figura 4.1.

Figura 4.1: Entidades de un MSC

4.1.2.

Mensajes

Están representados por las flechas, horizontales o diagonales, que nacen de una entidad y mueren en otra. El esquema permite a su vez la representación de mensajes intercambiados con el entorno externo del sistema representado, as´ı como posibles mensajes enviados perdidos por el camino e incapaces de llegar a sus destinos. Un mensaje representado por una flecha horizontal entre dos componentes indica que su tiempo de latencia es poco considerable, mientras que otro mensaje que aparezca con mayor diagonalidad representa un mayor retardo desde el momento del env´ıo por el componente emisor hasta el momento de la llegada al componente receptor. Una representación del intercambio de mensajes entre varios componentes puede encontrarse en la figura 4.2.

4.1.3.

Acciones

Otros tipos de elementos representables en un MSC lo constituyen las acciones que cada componente puede realizar sin interacción con las demás entidades, consistentes en cómputos internos. Estos procesamientos de datos pueden ser realizados para dar respuesta a una petición codificada en un 98

Figura 4.2: Mensajes de un MSC mensaje, para preparar el lanzamiento de nuevos mensajes que ser lanzados a otras entidades, o para analizar el resultado de respuestas recibidas. Las acciones se representan en los MSC con rectángulos. Las acciones pueden involucrar la ejecución de sentencias como llamadas a funciones o procedimientos ejecutados por la propia entidad y sólo se consideran terminadas cuando los cómputos terminan o esas llamadas a funciones o procedimientos retornan. Una representación de una acción ejecutada entre la recepción de un mensaje a y el env´ıo de una respuesta b puede contemplarse en la figura 4.3.

Figura 4.3: Acciones de un MSC

4.1.4.

Temporizadores

Si bien el eje vertical de cada uno de los componentes de un sistema representa la secuenciación relativa de los eventos que suceden en ese componente, lo cierto es que en dicho eje no existe medida alguna que represente temporizaciones ni medidas acerca del momento exacto en el que se espera que ocurran los eventos. En un MSC se refleja el orden posible de los eventos que ocurren globalmente en el sistema, pero no necesariamente se dan medidas acerca de los tiempos que deben transcurrir entre dichos eventos. En la figura 4.3 aparece claramente representado un sistema de dos entidades i y j de forma que presentan el requisito de que, en primer lugar, la entidad j env´ıa 99

un mensaje a a la entidad i, la cual realiza una acción y a continuación env´ıa un mensaje de respuesta b a la entidad j. Sin embargo, en ning´ un lugar del modelo aparecen restricciones acerca de cuál debe ser el tiempo transcurrido entre dichos eventos, ni es tampoco predecible ni acotable el tiempo existente entre el env´ıo del mensaje a y la recepción del mensaje b por la entidad j. Para poder contemplar en el modelo la duración máxima de estos intervalos entre eventos, los MSC permiten definir temporizadores, de forma que al vencimiento de un temporizador en una entidad se pueda provocar el comportamiento de una acción especial en dicha entidad que haga un tratamiento de la situación. Los MSC ofrecen para ello operadores para crear y desactivar temporizadores, as´ı como una marca para se˜ nalar el evento de activación del temporizador. Distintos tipos de operadores de temporizadores, cada uno de ellos nombrado con un nombre distinto, y para los cuales hay distintos comportamientos representados (establecimiento, desactivación, vencimiento, ...) pueden contemplarse en la figura 4.4.

Figura 4.4: Temporizadores de un MSC

4.1.5.

Corregiones

En ocasiones, el orden de los eventos de un MSC no está completamente determinado, sino un conjunto de eventos pueden ocurrir en cualquier orden, de forma no determinista. En aras de que las representaciones sean lo suficientemente flexibles y permitan representar en un mismo gráfico todas las posibles variantes de esas ordenaciones, t´ıpicamente atribuibles a aspectos no controlables como retrasos impredecibles en las comunicaciones, en la recepción o el env´ıo de varios mensajes, los MSC permiten la definición de zonas espec´ıficas en las entidades, llamadas corregiones representadas por fragmentos dibujados con trazos discontinuos en las entidades, de forma que 100

los mensajes que parten o llegan a una corregión pueden ser enviados o recibidos en cualquier orden posible respecto del resto de los eventos definidos dentro de la misma corregión. As´ı pues, dentro de una corregión con n eventos, se estarán representando los n! casos posibles de ordenación de una sola vez. Un ejemplo de corregión definida para el componente j puede contemplarse en la figura 4.5.

Figura 4.5: Corregiones en un MSC

4.1.6.

Condiciones

Una condición es el cumplimiento de una expresión de verdad, y sirve para indicar que el sistema ha entrado en un cierto estado. Una condición, que desde el punto de vista de programación se puede asociar con una expresión booleana, puede afectar a más de una entidad en un sistema. El s´ımbolo de condición en un MSC, que es un hexágono, aparece superpuesto a todas las entidades a las que afecta. Las demás entidades no afectadas por la condición se dibujan sin intersecar con el s´ımbolo de la condición, o bien aparecen superpuestas a él. En la figura 4.6 aparece representado un MSC donde la primera condición afecta a las entidades i y k, la segunda condición afecta sólo a la entidad i y la tercera condición afecta a todas las entidades del sistema.

4.1.7.

Creaci´ on y destrucci´ on din´ amica de entidades

Las entidades pueden estar creadas antes del momento del que parte el modelado del MSC y seguir existiendo después del momento en el que termina el modelado. En ese caso, se las considera entidades de creación estática, y su creación y destrucción no forma parte del modelado del sistema. No obstante, algunas entidades también pueden ser creadas y destruidas dinámicamente 101

Figura 4.6: Condiciones de un MSC en tiempo de ejecución, dentro del modelado del sistema, como por ejemplo, como respuesta a alg´ un tipo de evento. Tanto la creación como la destrucción de este tipo de entidades puede ser representada en un MSC fácilmente. La creación de mensajes se representa con una flecha discontinua desde la entidad creadora (la que invoca la creación) a la entidad creada (la que aparece como resultado de la invocación anterior). La destrucción de mensajes se representa al final de cada entidad con unas aspas en forma de cruz, momento a partir del cual, la entidad deja de existir. Una representación de la creación de dos entidades y la muerte de dos de ellas puede contemplarse en la figura 4.7.

Figura 4.7: Creación y destrucción dinámica de entidades en un MSC

102

4.1.8.

Expresiones inline

Una expresión inline es una parte especial de un MSC sobre la cual está definido un operador que conjuga la forma en la que deben aparecer los eventos que forman parte de la expresión. Por ejemplo, una expresión inline de bucle indica que los eventos que forman parte de ella pueden ser ejecutados en secuencia varias veces. Existen varios ejemplos posibles de operadores, que aparecen en la tabla 4.1. Por ejemplo, existen operadores para indicar que dos o más partes de un MSC deben ejecutarse en paralelo (concurrentemente), o para indicar que, de varias partes de un MSC, se debe escoger sólo alguna, quizá incluso dependiendo de una condición que determine cuál es la parte que responde al modelado de los siguientes eventos. Existen operadores también para indicar repetitividad, es decir, que la secuencia de eventos producidos en un fragmento de un MSC se deben repetir varias veces hasta que se cumpla una condición de salida del bucle.

Expresi´ on inline

Significado

alt

Bloques alternativos

loop

Bucle

opt

Bloque opcional

par

Acciones ejecutadas concurrentemente

exc

Excepciones

Cuadro 4.1: Tipos de expresiones inline

Las expresiones inline están representadas por rectángulos, donde los operandos están separados por l´ıneas horizontales discontinuas, y donde el nombre del operador aparece en la esquina superior izquierda del rectángulo. Las estructuras inline pueden anidarse unas dentro de otras. Una representación de varias expresiones inline de un MSC, una de ellas anidada dentro de otra, puede contemplarse en la figura 4.8.

4.1.9.

Descomposici´ on modular

Es habitual que en los sistemas más complejos, el nivel de complejidad de un MSC presente dificultades de legibilidad en la representación gráfica. 103

Figura 4.8: Expresiones inline en un MSC El n´ umero de eventos y de expresiones inline puede fácilmente llegar a ser demasiado grande, o la estructura de anidamientos puede presentar demasiados niveles, por lo que suele ser necesario simplificar la representación con construcciones más sencillas, encapsulando las partes de más bajo nivel para que puedan ser convenientemente referenciadas, de la misma forma en la que se usan procedimientos y funciones en los lenguajes de programación. Desde el punto de vista de los MSC, la solución habitual consiste en distribuir la información del modelo en varios MSC más simples de forma que unos puedan ser referenciados por otros. Tales referencias se representan con unos rectángulos con las esquinas redondeadas, cubriendo dichos rectángulos aquellas entidades que intervienen en el MSC referenciado. Una representación de un MSC que referencia a otros dos MSC externos puede contemplarse en la figura 4.9. La figura 4.10 representa un ejemplo de MSC en el que se combinan varios de los elementos anteriores.

4.2.

XPath

XPath es una recomendación del W3C para el direccionamiento de datos en documentos XML. El actual estándar es la versión 1.0 [129], recomendada desde noviembre de 1999. No obstante, a lo largo de los u ´ltimos a˜ nos los grupos de trabajo del W3C de XML Query y de XSL han estado trabajando 104

Figura 4.9: Referencias a otros MSC

Figura 4.10: MSC

105

en una nueva versión del estándar, la versión 2.0 [141], que actualmente está todav´ıa en fase de borrador. Sin llegar a tener toda la funcionalidad de un lenguaje de consulta tan potente como XQuery (ver apartado 4.5), XPath permite una especificación clara y funcional de consultas de datos en documentos y colecciones de elementos XML, pudiendo por tanto ser utilizable para las labores de extracción de datos mencionadas en el apartado 2.2.1. La expresividad de XPath permite que las especificaciones de expresiones de consulta sean lo suficientemente potentes como para resolver la mayor´ıa de las consultas usando apenas una expresión simple y fácilmente entendible que ocupa normalmente una u ńica l´ınea de texto. Ello ha permitido, por ejemplo, que actualmente se utilice XPath como lenguaje de consulta en bases de datos XML tales como [24, 63]. Por otro lado, XPath sirve como base de muchos otros lenguajes que recorren la estructura de documentos XML, tales como XPointer [138], XSLT [130], XQuery [142] o XUpdate [148]. Una importante caracter´ıstica de XPath es que no dispone de todas las caracter´ısticas necesarias para poder ser utilizado por s´ı sólo como un lenguaje de programación completo. XPath está dise˜ nado para ser utilizado dentro de un lenguaje anfitrión, el cual deberá ser capaz de proporcionar a XPath un entorno de ejecución con acceso a las variables del entorno y capaz de encargarse de todas aquellas tareas ajenas a la labor para la que XPath ha sido dise˜ nado. Por ejemplo, XPath no contempla funcionalidades relacionadas con la transferencia de documentos en la Red, el acceso al sistema de ficheros, el env´ıo de formularios, la comunicación con programas externos, la petición de datos al usuario ni tampoco la presentación de datos a éste. Todas esas funcionalidades son ajenas a XPath, y por lo tanto, quedan delegadas como labores del lenguaje anfitrión en el que XPath esté hospedado. Los u ńicos repositorios que reconoce XPath para almacenar datos son variables en memoria capaces de ser accedidas y modificadas tanto por él como por el lenguaje anfitrión en el que está hospedado XPath. Ejemplos de conocidos lenguajes anfitrión de XPath son XSLT y XUpdate, pero no son los u ńicos posibles. La existencia de varios posibles lenguajes anfitriones no debe sorprender, puesto que la sintaxis compacta de XPath está orientada precisamente a facilitar su hospedaje en varios posibles lenguajes anfitriones, especialmente los basados en XML, donde las expresiones XPath son idóneas para ser almacenadas en atributos de etiquetas XML. Sin duda, gran parte del éxito de aceptación de XSLT es debido a que buena parte de su funcionalidad recae sobre XPath aprovechando este sencillo y elegante tipo de hospedaje.

106

La presencia de XPath, desde que apareció su primera versión, ha estado, pese a sus m´ ultiples posibilidades, principalmente limitada a dos campos. Por una parte, XPath ha sido usado en varias bases de datos XML, donde es empleado como lenguaje de consulta para la extracción de elementos XML resultado. Por otra parte, y de una manera quizá mucho más destacada por su mayor impacto de utilización en un mayor n´ umero de personas, XPath ha sido una de las bases de las hojas de estilo XSLT. En XSLT, XPath es empleado para seleccionar los nodos del documento de entrada a los que se les debe aplicar las plantillas de transformación declaradas en una hoja de estilo. El aumento de expresividad adquirido en los borradores de la u ´ltima versión de XPath (concretamente en la versión 2.0, actualmente en fase de borrador donde a´ un hay aspectos en fase de discusión) ha sido realmente importante en los u ´ltimos a˜ nos. Estos aumentos de expresividad, que aparecen destacados en negrita en la figura 4.11 sobre los de la versión 1.0 de XPath, permiten a XPath 2.0 ser usado, más que un simple lenguaje de construcción de expresiones sencillas de direccionamiento de datos en documentos XML, prácticamente como un peque˜ no mini-lenguaje de programación de funcionalidades muy recortadas. Pese a que ambas versiones son en el fondo muy parecidas, la nueva versión no es a´ un completamente compatible con el anterior estándar, lo cual está provocando numerosas revisiones y debates [122] entre los grupos de trabajo del W3C donde se está llevando a cabo el proceso de homogeneización. La aplicación del nuevo borrador de XPath 2.0 para el direccionamiento de datos en las páginas Web no ha sido contemplada por los trabajos relacionados en el cap´ıtulo 3, ni por prácticamente ning´ un trabajo recientemente publicado, al menos en lo que concierne al autor de esta tesis. Una de las razones principales que puede justificar esta falta de aplicación de XPath 2.0 reside en que éste es a´ un un borrador que no ha pasado a ser un estándar consolidado por el W3C, razón por la cual los desarrolladores prefieren usar la versión recomendada de XPath 1.0, preferentemente en alg´ un entorno ampliamente conocido como lo son las hojas de estilo XSLT. Por otra parte, la gran mayor´ıa de las páginas Web no cumplen las reglas básicas necesarias para poderles ser aplicadas tecnolog´ıas XML, por lo que aplicar XPath sobre ellas directamente resulta, en primera instancia, impracticable. XPath 2.0 tal y como aparece definido, es un lenguaje funcional basado en expresiones que necesita estar hospedado por un lenguaje anfitrión que sea capaz de albergarlo proporcionándole un conjunto de funcionalidades básicas, tales como mantenimiento de un entorno de ejecución que secuencialice

107

adecuadamente la evaluación de las distintas expresiones XPath de consulta, o que se encargue de la recuperación y lectura de las páginas a las que se deben aplicar las expresiones XPath de consulta. Un t´ıpico ejemplo de lenguaje anfitrión para XPath es XSLT, el lenguaje de transformación de documentos XML mediante hojas de estilo. Lenguajes de programación convencionales, como Java, también pueden ser anfitriones de XPath, como ocurre cuando se hace uso de bibliotecas capaces de evaluar expresiones XPath recibidas como argumento [62] y que devuelven sus resultados en tipos de datos conforme a un API como DOM [131], tal y como aparece en la figura 3.5. Sin embargo, la gran mayor´ıa de esos lenguajes anfitriones usan la versión recomendada de XPath 1.0, y todav´ıa no hay implementaciones fiables que sirvan para calcular expresiones XPath 2.0. XPath está definido como un lenguaje de expresiones, lo cual significa que son éstas, las expresiones, los bloques básicos de construcción de XPath. El lenguaje contempla varios tipos distintos de expresiones que pueden ser construidos con palabras clave, s´ımbolos y operandos. En general, los operandos de una expresión construida con un operador son a su vez otras expresiones. La figura 4.11 contiene un resumen de las más importantes destacando en negrita las que son aportaciones de XPath 2.0 respecto de XPath 1.0. Las siguientes secciones contienen una descripción detallada de cada una de ellas.

4.2.1.

Secuencias

El valor de una expresión es siempre una secuencia de valores. Una secuencia es una colección ordenada de varios valores, con un n´ umero de elementos ilimitado, pero finito, incluyendo también el caso de la secuencia vac´ıa, es decir, la secuencia que no contiene ning´ un valor. Los elementos posibles de una secuencia son valores de tipos denominados como atómicos, esto es, valores simples no formados por la composición de otros valores. Ejemplos de valores atómicos son los valores numéricos (de distintas subcategor´ıas dependiendo de su precisión, como valores enteros, decimales y de coma flotante), valores lógicos (o booleanos) y las cadenas de caracteres (strings). Cuando una secuencia tiene un u ńico elemento se le denomina sigleton y el valor de la secuencia se asimila al del u ńico elemento que contiene. Es decir, para XPath el valor efectivo de la secuencia (3), formada por un u ńico elemento cuyo valor numérico es 3, es asimilable a ese mismo valor numérico. Asimismo, las secuencias deben ser todas planas, es decir, no se admite la definición de secuencias cuyos elementos sean a su vez otras secuencias. Por otro lado, mientras que en XPath 1.0 los tipos de datos atómicos son apenas unos po108

Ejes: Expr/Expr, Axis::NodeTest Predicados: Expr[Expr] Referencia a variables: $Var Expresiones aritméticas: Expr + - * div mod Expr Llamada a funciones: QName(Expr) Expresiones lógicas: Expr or and Expr, not(Expr) Comparaciones: • Expr = != < >= Expr • Expr eq ne lt le gt ge Expr • Expr is isnot Expr Secuencias: Expr , union | intersect except Expr Sentencias condicionales: if Expr then Expr else Expr Iteraciones: for Var in Expr return Expr Expresiones cuantificadas • some Var in Expr satisfies Expr • every Var in Expr satisfies Expr Figura 4.11: Funcionalidades de XPath 2.0 comparadas con las de XPath 1.0

109

cos posibles, básicamente los mencionados anteriormente junto con los nodos (referencias a elementos del documento XML, incluyendo el elemento ra´ız o página), en los posteriores borradores del estándar el conjunto de tipos básicos posibles ha sido ampliados con la incorporación de tipos de datos provenientes de XML Schema (como fechas, duraciones, URIs, ...). Ello ha dotado al lenguaje de una mayor riqueza al incluir as´ı tipos especializados que, con frecuencia, aparecen en los documentos que se publican en el Web.

4.2.2.

Variables

Las variables son repositorios en memoria que albergan resultados de expresiones XPath y que constituyen la forma de comunicar XPath con su entorno. Gracias a las variables, expresiones XPath pueden utilizar los resultados de otras expresiones XPath. El acceso al valor de una variable dentro de XPath se representa con el s´ımbolo del dólar $ seguido del nombre de la variable. Las variables de XPath son accesibles por el lenguaje anfitrión de XPath de forma que éste también es capaz de manipular los resultados de expresiones XPath.

4.2.3.

Operadores aritm´ etico-l´ ogicos y de comparaci´ on

XPath permite especificar operaciones aritméticas (sumas, restas, multiplicaciones, divisiones, ...) as´ı como operaciones lógicas (and, or, not) y comparaciones de diversos tipos (igualdad, menor que, menor o igual que, mayor que ...), incluyendo también operadores para comparar el orden de aparición de nodos dentro del documento. Todo ello permite la creación de expresiones sencillas capaces de calcular operaciones habituales de análisis de datos en páginas XML que pueden ser combinadas fácilmente.

4.2.4.

Ejes de navegaci´ on

Los ejes de navegación son indicadores acerca de los caminos que deben seguirse para saltar de un nodo a otro dentro del árbol del documento. Normalmente esta navegación necesita hacerse en varios saltos, razón por la cual las expresiones XPath están divididas en distintos steps o pasos, delimitados por barras inclinadas /. Dentro de cada paso, los saltos entre nodos están condicionados por los denominados ejes de navegaci´ on que indican la relación vecinal existente entre el nodo de origen y el nodo destino de cada 110

salto. Estas distintas formas de proximidad vecinal son contempladas por el estándar de forma que sean as´ı explorables todos los nodos, tanto internos a un nodo cualquiera (child y descendant), como externos al mismo (parent, ancestor, preceding-sibling y following-sibling). El acceso a los atributos XML de un nodo se puede realizar atravesando el eje attribute. XPath proporciona a su vez una sintaxis abreviada para cada uno de esos ejes de navegación, lo cual permite la construcción de expresiones más cortas y legibles. La tabla 4.2 muestra un listado de los ejes de XPath.

Eje

Nodos considerados

ancestor

Cualquier nodo en el camino hacia la ra´ız

ancestor-or-self

Lo mismo, pero incluy´ endolo

attribute

S´ olo los nodos atributo del ´ arbol

child

Los nodos directamente contenidos por el nodo actual

descendant

Los nodos del sub´ arbol cuya ra´ız es el nodo actual

descendant-or-self

Lo mismo, pero incluy´ endolo

following

Los nodos posteriores al actual, excluyendo descendientes

following-sibling

Nodos hermanos posteriores al actual

parent

El ascendiente directo de un nodo

preceding

Los nodos anteriores al actual, excluyendo ancestros

preceding-sibling

Nodos hermanos anteriores al actual

self

El nodo actual

Cuadro 4.2: Ejes de XPath partiendo de un nodo contexto

4.2.5.

Predicados

Si bien suele ser necesario a menudo atravesar varios nodos antes de poder llegar a los elementos que interesa finalmente acceder, lo cierto es que muchas veces el atravesamiento de ciertos de esos nodos que aparecen direccionables por un eje de navegación resultan no deseables. El uso de los ejes de navegación, aunque esté bien combinado con una adecuada elección de los nombres de los elementos, resulta muchas veces insuficiente para evitar la navegación por nodos no deseados. Por esa razón, XPath proporciona mecanismos adecuados para permitir la selección, conforme a criterios especificables por el usuario, de los elementos de una secuencia obtenida en cada paso de una expresión XPath, de manera que sólo sean seleccionados del 111

documento XML aquellos componentes que cumplan un conjunto de requisitos establecidos, siendo descartados aquellos elementos de la secuencia que no cumplan esa propiedad. Las funciones encargadas de filtrar o seleccionar aquellos elementos de una secuencia que cumplen las propiedades especificadas en una condición se denominan predicados, y son una parte muy importante de XPath, pues en ellos reside gran parte de su expresividad. Los predicados se representan en XPath rodeados de corchetes [] que, situados a la parte derecha de cada paso, rodean la condición que deben cumplir cada uno de los elementos seleccionados en ese paso para poder formar parte del resultado final.

4.2.6.

Llamadas a funciones

Con el fin de poder especificar tratamientos especializados, XPath permite la llamada a funciones parametrizables con argumentos. Dichas funciones aparecen detalladas en una biblioteca definida para el lenguaje, e incluye m´ ultiples tipos de tratamientos para cada uno de los distintos tipos de datos manejables en XPath. No obstante, el conjunto de funciones llamables resulta un tanto limitado ya que XPath no permite la definición de funciones de usuario y la biblioteca utilizable tiene un conjunto cerrado de primitivas.

4.2.7.

Constructores de datos secundarios

Por otro lado, si bien la idea básica de XPath es la de permitir la extracción y direccionamiento de datos tal cual éstos aparecen en el documento XML (datos primarios), el estándar contempla además operadores capaces de obtener datos que, no figurando como tales en el documento XML de entrada, s´ı son capaces de ser computados mediante sencillos algoritmos a partir de los datos que aparezcan en el documento. Ejemplos de estos operadores sencillos son la media, la suma, el m´ınimo y el máximo, aunque la lista es más extensa.

4.2.8.

Modificaciones introducidas en XPath 2.0 respecto de XPath 1.0

El actual borrador de esta técnica es el de XPath 2.0, que, desde su primera publicación en diciembre de 2001, ha sufrido varias revisiones, siendo [141] la más reciente de ellas. Desde entonces, el borrador de XPath ha in112

corporado una serie de modificaciones importantes que le han dotado de una mayor expresividad y capacidad de especificación. Algunas de ellas son las siguientes:

Generalizaci´ on del concepto de secuencia En XPath 1.0 el tipo básico de datos es el node-set, en el que el orden de los elementos es el mismo que en el documento y no se admiten elementos repetidos. Por el contrario, en XPath 2.0, el concepto de node-set ha sido sustituido por otro más abierto como es la secuencia, donde, a diferencia de su predecesor, se permite la aparición de elementos repetidos y se pueden definir otros criterios de ordenación distintos al de la aparición en el documento.

Expresiones condicionales y de iteraci´ on (if y for) XPath 2.0 incorpora también novedades respecto a su versión anterior en el campo del control de flujo para la evaluación de expresiones XPath, algo que no aparec´ıa en las versiones anteriores del estándar. Nuevos constructores de expresiones condicionales del tipo if-then-else y repetitivas del tipo for-in han sido incorporados, gracias a la influencia de XQuery para la definición de expresiones condicionales y repetitivas. No obstante, la definición de este tipo de expresiones no es la misma que cabr´ıa esperar en un lenguaje imperativo, ya que se trata de constructores de expresiones, más que constructores de sentencias. Es decir, una expresión for de XPath, lejos de constituir un conjunto de sentencias ejecutadas secuencialmente, en realidad construye una expresión en s´ı misma que tiene como valor la secuencia formada por los elementos construidos en cada una de sus iteraciones.

Expresiones cuantificadas Las expresiones cuantificadas sirven para comprobar que se cumple una determinada propiedad en todos los elementos de un conjunto o al menos en alguno de ellos. Para ello, proporciona dos cuantificadores, llamados some y every, que, una vez aplicados a una propiedad o valor de verdad y a una lista de elementos, determinan si la propiedad es cierta para, al menos alguno, o para todos los elementos de la secuencia. 113

Operaciones de conjuntos Otra de las novedades incorporadas en la nueva versión de XPath son los operadores definidos para construir nuevas secuencias a partir de otras secuencias preexistentes. De este modo, existen operadores para crear la unión (union), la intersección (intersect) o la diferencia (except) de secuencias como si fueran conjuntos, esto es, eliminando los elementos repetidos y dejando de considerar la existencia de un orden entre sus elementos. La secuencia formada por la unión o por la intersección de dos secuencias A y B es la formada por aquellos elementos que pertenecen a A o/y pertenecen a B (respectivamente).

4.2.9.

Aportaciones de XPath

Una caracter´ıstica importante del presente trabajo es la de ser el primero que intenta, al menos en lo que el autor es consciente en la fecha de escritura de este documento, utilizar en profundidad aquellas nuevas funcionalidades de XPath 2.0, que no están en XPath 1.0, en el campo de la integración de datos semiestructurados en el Web legado basado en páginas HTML. Para ello se ha desarrollado una extensión de XPath 2.0 basada en un conjunto peque˜ no de nuevos, pero potentes operadores que mantienen al m´ınimo las diferencias con el borrador de XPath 2.0 y que aparecen detalladas en el apartado 5.5. Por otro lado, se ha proporcionado un lenguaje anfitrión, detallado en el cap´ıtulo 6 distinto a los habitualmente usados para XPath hasta el momento, que son XSLT o las bases de datos XML. Finalmente, se ha proporcionado una plataforma de ejecución capaz de evaluar expresiones de consulta descritas en la extensión propuesta de XPath de forma que los resultados de esas expresiones de consulta sean utilizables por un lenguaje de programación asequible al usuario y que le permita automatizar fácilmente tareas en el Web. XPath es un lenguaje funcional basado en expresiones que está definido como una recomendación del W3C orientada al direccionamiento de partes de documentos XML. XPath permite de una forma sencilla, y con alto nivel de abstracción, tener una visión en forma de árbol del modelo de datos del documento XML, de forma que la navegación entre los nodos del mismo resulta sencilla, pudiendo estar enfocada directamente a las partes relevantes del documento, sin que para ello tengan que ser tenidas en cuenta las partes consideradas como no relevantes. El cometido para el que XPath ha sido dise˜ nado es el de permitir, de una forma clara, sencilla y no ambigua, el direccionamiento de datos (textos, n´ umeros, condiciones, y conjuntos de 114

informaciones semiestructuradas en general) dentro de documentos XML, proporcionando una visión del documento similar a la de un árbol de directorios en un sistema de ficheros, aunque con mayores capacidades de selección y filtrado. XPath toma su nombre de su uso como una notación de path o camino a través de la estructura jerárquica de los documentos XML.

4.3.

XPointer

XPointer es un borrador del W3C [138] que está definido como una ampliación de XPath para permitir el direccionamiento de partes de XML que no se corresponden con los nodos de un árbol de documento y que no pod´ıan ser direccionadas con XPath. Para ello, XPointer expande la definición de tipos utilizada en XPath con tres nuevos tipos de datos que se resumen a continuación:

4.3.1.

Puntos

Los puntos (point) se definen como posiciones entre dos componentes dentro de los documentos XML. Un punto representa la posición anterior o posterior a un elemento de datos del documento, como puede ser cualquier carácter individual, entidad o nodo de un documento XML. Los puntos están definidos como un par formado por un contenedor y un n´ umero entero no negativo llamado ´ındice, que indica la posición del punto dentro del contenedor. Cuando el contenedor es un elemento que contiene texto, el ´ındice indica la posición en caracteres del punto dentro del contenedor. Cuando el contenedor es un elemento que puede tener nodos hijos, el ´ındice indica la posición de aquél nodo hijo, cuya localización de inicio se corresponde con el punto. La figura 4.12, tomada de la especificación de XPointer [138] del W3C, refleja un ejemplo en el que aparecen detallados varios puntos y nodos de texto, as´ı como su relación con los nodos contenedores de los mismos.

4.3.2.

Rangos

Los rangos (range) se definen como los fragmentos de documento comprendidos entre dos puntos arbitrarios de un documento. Téngase en cuenta que ello permite definir trozos de documento que no necesariamente están dentro del mismo contenedor. Por ejemplo, puede definirse un rango que empieza en la mitad de un párrafo y terminan en la mitad del párrafo siguiente. 115

Figura 4.12: Representación de elementos XPointer en un fragmento XML Los rangos son asimilables a cualquier fragmento contiguo de un documento XML, como el que fácilmente podr´ıa ser seleccionado mediante una herramienta visual haciendo una operación de drag & drop.

4.3.3.

Patrones de texto

Una de las grandes necesidades en el campo del direccionamiento de datos semiestructurados consiste en la posibilidad de reconocer textos mediante expresiones regulares. XPath, enfocado principalmente al direccionamiento de nodos, no proporciona, al menos en sus primeras versiones de XPath 2.0, funciones capaces de devolver aquellas partes de los documentos XML donde se cumple una concordancia entre el texto del documento y un patrón de texto usado para hacer b´ usquedas o reconocimiento de textos basados en expresiones regulares. Mediante la función string-range() de XPointer, esto ya es una realidad, pero el string recibido por esta función como patrón es buscado literalmente en el documento (sin posibilidad de ser interpretado como una expresión regular), por lo que el tipo de b´ usquedas que se pueden realizar con este patrón resultan algo limitadas. 116

4.3.4.

Aportaciones de XPointer

Extender XPath con nuevas funcionalidades definiendo tal y como XPointer propone mediante nuevo lenguaje considerado como una extensión de la parte básica de XPath es un buen enfoque, porque permite ampliar la funcionalidad de un lenguaje preexistente dotándole de una mayor complejidad, sin que para ello se retoque la parte básica del estándar, la cual puede ser, sin embargo, suficiente para tareas más sencillas. Teniendo en cuenta el carácter eminentemente especializado de los nuevos operadores sugeridos por XPointer, su relativamente bajo n´ umero (tres), su escasa relación con los operadores de XPath y el hecho de que XPath por s´ı mismo es capaz ya de dar respuesta a una buena parte de los problemas en los que es utilizado, no resulta raro darse cuenta de las razones por las cuales estas extensiones han formado parte de una definición externa a XPath, en lugar de ser incorporadas al borrador de XPath como nuevos conjuntos de operadores. Sin embargo, pese a este flexible enfoque seg´ un el cual se podr´ıa disponer de una tecnolog´ıa más potente que la que ofrece XPath gracias a unas pocas, pero importantes extensiones de funcionalidad, XPointer presenta algunas caracter´ısticas que le impiden ser considerada como una tecnolog´ıa apropiada para el desarrollo de este trabajo. Ciertamente hay buenas ideas que aporta esta recomendación de las que tomar buena nota, pero existen igualmente problemas, entre los que se destacan unos a continuación: La especificación de XPointer prohibe expl´ıcitamente la definición de funciones de usuario, lo cual supone una restricción inasumible para poder afrontar los objetivos de esta tesis, entre los cuales está la definición de comportamientos encapsulables por parte de los usuarios. string-range por s´ı sólo resulta presentar una funcionalidad algo limitada, ya que sólo permite buscar texto tal cual dentro del documento, sin permitir generalizar las b´ usquedas con expresiones regulares. XPointer, desarrollado por un grupo de trabajo en el W3C distinto al de la definición de XPath, está basado en la versión de XPath 1.0, y por lo tanto no recoge las importantes ampliaciones de los nuevos borradores de XPath 2.0. Ello probablemente dejará de ser un problema en cuanto los dise˜ nadores de XPointer empiecen a trabajar en una versión basada en el nuevo borrador de XPath, pero no se tiene, por el momento, constancia de que tal iniciativa se vaya a llevar a cabo. De hecho, los avances que el grupo de XPointer ha conseguido por su cuenta no han sido incorporados en los borradores de XPath que han aparecido con posterioridad. 117

Finalmente, tampoco resulta interesante todas las nuevas funcionalidades de XPointer. Por ejemplo, la definición de puntos basada en posiciones numéricas es muy poco tolerante a cambios en el documento (la simple inserción de una palabra o un nodo inesperado provocará un cambio en la posición del elemento que se desea extraer, lo cual implica una reprogramación de las reglas basadas en posicionamientos expresados con posiciones numéricas) y no todos los rangos definibles por XPointer interesan.

Pese a estas m´ınimas diferencias, buena parte de las ideas con las que XPointer extiende a XPath han sido tenidas en cuenta en el cap´ıtulo 5.5 para ampliar la funcionalidad de XPath en aquellos aspectos en los que la experiencia ha demostrado que tales extensiones son convenientes. Para ello, no obstante, se han restringido aquellas extensiones que no aportaban una funcionalidad interesante para acometer los objetivos de esta tesis.

4.4.

XSLT

XSLT [130] es un formato de hojas de estilo muy conocido que se utiliza mucho para la transformación de documentos XML en otros documentos. A diferencia de las tecnolog´ıas mencionadas en este cap´ıtulo (salvo quizá XUpdate y una versión de XQuery orientada al procesamiento automatizado, llamada XQueryX [135]), XSLT sigue una sintaxis XML, donde se utiliza el concepto de plantilla para aplicar unas reglas de transformación a elementos de documentos XML direccionados con XPath. Precisamente esa buena relación de complementareidad entre las hasta ahora utilizadas versiones de XSLT y XPath (versiones 1.0 en ambos casos), se ha convertido en una de las razones del éxito de aceptación de XSLT. No obstante, por debajo del enfoque de simple transformación de XSLT, se esconde todo un lenguaje de programación funcional capaz de ser un buen lenguaje anfitrión para XPath. El modelo de trabajo de XSLT es sencillo. Basta con aplicar una a una el conjunto de plantillas al modelo en árbol DOM del documento de entrada, para as´ı ir generando los resultados deseados en el documento de salida. Pese a usar la complejidad de DOM para acceder a un documento XML, XSLT no permite la manipulación del documento XML de entrada, sino que sólo genera nuevos documentos. 118

4.4.1.

Aportaciones de XSLT

Pese a su aceptación por un gran conjunto de desarrolladores, XSLT resulta ser un lenguaje limitado en varios aspectos que le impiden ser una solución compatible con los objetivos de esta tesis. Para empezar, su sintaxis XML le hace ser fácilmente procesable por aplicaciones, pero demasiado verbosa y extensa, por lo que resulta dif´ıcil de mantener. De hecho, simples operaciones programadas en el lenguaje pueden fácilmente requerir la programación de bastantes l´ıneas de código, razón por la cual los programas desarrollados con XSLT acaban teniendo un tama˜ no similar al que podr´ıa tener su equivalente en un lenguaje de programación convencional. XSLT proporciona una visión de alto nivel en el documento y su notación funcional le hacen ser un lenguaje apropiado para tratamientos sencillos. Sin embargo, las hojas de estilo XSLT resultan bastante poco flexibles para realizar tareas complejos. Por otro lado, el nuevo borrador de XSLT 2.0 se encuentra ahora mismo en un serio debate de reformulación debido a los conflictos de intereses que han aparecido como consecuencia de la extensión de XPath 2.0. Actualmente existen importantes problemas de integración con XPath 2.0 debido a que la extensión de este u ´ltimo desde su recomendación anterior ha incluido varios operadores cuya funcionalidad ya estaba siendo contemplada por operadores similares de XSLT, lo cual ofrece m´ ultiples fuentes de ambig¨ uedad para los desarrolladores. Es por ello que esta integración está siendo objeto de estudio por el grupo de trabajo. A continuación se muestran algunos ejemplos que ilustran este tipo de conflictos recientemente aparecidos: 1. En la figura 4.13 se muestran dos versiones del código XSLT necesario para calcular el valor máximo de un par de variables. La primera versión está basada en XPath 1.0, por lo que, dada la simplicidad del estándar, casi toda la labor acaba recayendo en la funcionalidad proporcionada por XSLT. La segunda versión, basada en XPath 2.0, resulta mucho más simple y compacta por el simple hecho de traspasar la funcionalidad de XSLT a XPath, quedando en una u ńica l´ınea de código lo que en la versión XSLT requer´ıa varias. 2. En este ejemplo se puede comprobar el sensible aumento de expresividad y de nivel de abstracción experimentado por XPath experimentado por sus expresiones cuantificadas. Ambas expresiones XPath intentan determinar la condición de que, en un documento XML que refleja los resultados de unas encuestas, los participantes de la misma no hayan dejado ninguna pregunta (question) sin contestar (el atributo @value deberá ser no nulo). Expresar esa condición resulta sencillo en XPath. 119

Figura 4.13: Expresión XPath reformulada con el operador if

Para ello, la expresión en XPath 1.0 contabiliza el n´ umero de preguntas efectivamente contestadas y comprueba que ese n´ umero coincide con el n´ umero de preguntas de la encuesta. Esto, que es una solución perfectamente válida implica realizar siempre dos contabilizaciones que pueden ser muy costosas cuando el n´ umero de elementos es muy elevado. Por el contrario, usando el nuevo cuantificador universal de XPath 2.0, la solución, además de ser más eficiente de calcular en término medio, pues en el momento en el que se encuentra una pregunta sin contestar puede interrumpirse la b´ usqueda para dar un resultado negativo, resulta más elegante, ya que simplemente se pregunta si todos los elementos de la lista de preguntas cumplen la condici´ on de estar respondidas. En la figura 4.14 pueden comprobarse las formas de expresar una misma condición, tanto en XPath 1.0, como en XPath 2.0, con el nuevo operador cuantificado.

Figura 4.14: Expresión XPath reformulada con el operador every

120

4.5.

XQuery

Paralelamente al lanzamiento de XPath 2.0, el mismo grupo de trabajo de ese borrador ha estado trabajando en el lanzamiento de la primera versión de XQuery [142], actualmente definido también como borrador (a´ un sujeto a cambios). XQuery se define como un lenguaje de consultas estructuradas para documentos XML de entrada de forma que los resultados se almacenan en nuevos documentos XML de salida. XQuery 1.0 abarca a XPath 2.0 como un subconjunto del lenguaje al que se le han a˜ nadido extensiones espec´ıficas no contempladas en XPath 2.0. Esto quiere decir que toda expresión XPath 2.0 es considerable a su vez como una expresión XQuery 1.0 y debe devolver el mismo resultado. El lenguaje de consultas XQuery permite realizar consultas a un documento XML como si éste fuera una base de datos relacional, dando as´ı una visión muy estructurada del documento. Cuando el documento XML no tiene una estructura asimilable a la de una tabla, entonces entran en juego los operadores de XPath capaces de dar una visión en árbol. La compenetración entre XPath y XQuery está garantizada, no sólo por ser un objetivo del grupo de trabajo que redacta ambas especificaciones, sino también por el hecho de que buena parte de la funcionalidad de XQuery se encuentra ya recogida en la de XPath, donde el conjunto de operadores que pertenecen a XQuery y no pertenecen a XPath suponen una peque˜ na, aunque significativa parte de la especificación. XQuery es el resultado del trabajo conjunto de varias personas que han recopilado esfuerzos provenientes de varios proyectos relacionados con la creación de lenguajes de consulta, tales como SQL [78], XQL [107] o XML-QL [56] entre otros. El lenguaje mantiene un gran parecido con SQL y define reglas de construcción del documento XML de salida, que contendrá los resultados de la b´ usqueda.

4.5.1.

Aportaciones de XQuery

Al estilo de XPointer, XQuery se presenta como una ampliación de XPath. Sin embargo, pese a este flexible enfoque, seg´ un el cual se permitir´ıa mantener una especificación simple para solucionar la mayor´ıa de los problemas y una especificación más especializada para solucionar los problemas más complejos, el enfoque de XQuery hacia las bases de datos estructuradas acaba restando valor a XQuery para ser contemplado como una tecnolog´ıa válida para afrontar los objetivos de esta tesis. A ello hay que a˜ nadir el hecho de que XQuery está orientado, al igual que XSLT, a la creación de un documento XML de salida que contiene los resultados de la b´ usqueda, pero no permite realizar modificaciones directamente sobre el documento de entrada. No obs121

tante, XQuery aporta algo muy positivo de lo cual carece XPath, que es la posibilidad de asociar expresiones XPath a distintas fuentes de documentos as´ı como integrar los datos de varias de esas fuentes.

4.6.

DOM

Sin duda alguna, DOM [131] ha sido, desde su nacimiento, el interfaz de programación más conocido para el procesamiento de datos XML. Estandarizado casi desde el nacimiento del propio XML, el interfaz DOM define un conjunto de primitivas sencillas y potentes que permiten la manipulación flexible del documento XML, manteniendo en memoria una representación en forma de árbol en la cual se pueden recorrer los nodos en varios sentidos y direcciones, incluso de forma repetida si se desea. El almacenamiento en forma de árbol tiene como ventaja a˜ nadida a su gran navegabilidad el hecho de que es fácilmente modificable en memoria, siendo muy eficiente este modelo para peque˜ nas modificaciones sobre grandes documentos. Sin embargo, entre sus desventajas está un elevado consumo de recursos espaciales, de forma que una representación en memoria, dicho sea de paso, puede ocupar significativamente mucho más espacio que la versión serializada en un fichero. Sin embargo, la visión del documento como un árbol en memoria permite una gran facilidad de programación para modificaciones en la estructura arbórea del documento. Por ejemplo, la inserción, el eliminado de nodos o la manipulación repetida del valor de atributos, puede ser realizada de forma directa atacando las partes del árbol afectadas sin que el resto sufra modificaciones, siendo estos tratamientos a su vez muy eficientes en el tiempo, toda vez que el principal consumo de recursos se realiza en el análisis inicial del documento. As´ı pues, DOM resulta ser una tecnolog´ıa especialmente adecuada para realizar tareas para las que otras tecnolog´ıas mencionadas en este cap´ıtulo, como XSLT o XQuery no son adecuadas. Además, dado que, los documentos del Web no suelen ser demasiado grandes, el problema de esta los requisitos de memoria de DOM pasan a estar en un segundo plano cuando se trata de ser aplicado al tratamiento de páginas Web.

4.6.1.

Aportaciones de DOM

Sin duda alguna, de todas las tecnolog´ıas de este cap´ıtulo, DOM es la más potente y flexible para realizar tareas de integración de datos semiestructurados en el Web. Su capacidad de permitir recorridos por el documento en cualquier forma y sentido la convierten en ideal para poder realizar diversas 122

extracciones de datos de un mismo documento, algo, por otra parte habitual en el ámbito de trabajo afrontado en esta tesis. La supuesta sobrecarga de recursos necesarios para su procesamiento tampoco es en s´ı un problema, ya que los clientes, muy al contrario que muchos servidores Web, tienen muchas veces recursos más que suficientes para procesar las páginas del Web que van consultando, las cuales, dicho sea de paso, tampoco suelen tener un tama˜ no excesivo. Ahora bien, si bien la idea de representar documentos en forma de árbol es una aportación realmente importante para el trabajo de esta tesis, el interfaz DOM en s´ı mismo presenta la importante desventaja de presentar al usuario un nivel de abstracción bastante bajo, lo cual redunda en que, incluso para las operaciones más sencillas, sean necesarias varias l´ıneas de código. Además su orientación imperativa precisa que cualquier tipo de navegación en el documento deba realizarse solicitando al programador todo lujo de detalles, en lugar de usar expresiones de más alto nivel de abstracción. Una solución al problema podr´ıa ser la combinación de bibliotecas para XPath 2.0 usadas desde programas implementados conforme al interfaz DOM. Lamentablemente no existen bibliotecas disponibles que implementen la funcionalidad de XPath 2.0, ya que las pocas existentes están definidas sobre la versión anterior de ese estándar. En definitiva, DOM aporta una excelente forma de representar documentos navegables en memoria en forma de árbol, pero su interfaz concreto tiene un nivel demasiado bajo para los programadores.

4.7.

SAX

Al margen de las especificaciones del W3C, un grupo de programadores, moderados por David Megginson en la lista de correo electrónico xml-dev ha desarrollado un interfaz de programación orientado al procesamiento eficiente de documentos XML. Para ello, en lugar de procesar todo el documento para obtener una representación en memoria del mismo, este interfaz se encarga de permitir al usuario definir el comportamiento del procesador del documento ante el evento de leer cada una de sus partes seg´ un éstas van siendo obtenidas del documento de entrada. Ello permite que el análisis de grandes documentos XML pueda realizarse seg´ un los elementos del documento XML van siendo procesados, uno a uno, sin necesidad de ir guardando todo lo le´ıdo hasta el momento. SAX es un interfaz que permite, pues el análisis en secuencia del documento XML de entrada y es muy recomendable para el análisis de grandes documentos. Una de sus principales desventajas, sin embargo, se deriva del hecho de que SAX no es un interfaz de programación adecuado 123

para la manipulación de documentos, ya que en el código de la programación de cada evento ocurrido en el procesamiento, no se puede tener acceso a las partes del documento procesadas con anterioridad.

4.7.1.

Aportaciones de SAX

Aunque factible para realizar ciertas labores sencillas, SAX resulta ser una tecnolog´ıa inapropiada para afrontar los objetivos de esta tesis. Su bajo nivel de abstracción, demasiado particularizado a un tratamiento espec´ıfico (el procesamiento secuencial orientado a eventos), le impide ser considerado como una tecnolog´ıa adecuada para la extracción de datos relevantes en documentos XML, no sólo por la dificultad que impone el interfaz para el acceso a estructuras de datos de complejidad media o alta, sino por el hecho de que implica realizar programas con un elevado n´ umero de l´ıneas de código, lo cual ofrece al programador pocas garant´ıas de robustez ante cambios. Por otro lado, aunque la eficiencia es un factor cr´ıtico, la mayor´ıa de los documentos en el Web son páginas de tama˜ no relativamente bajo estando los retrasos causados principalmente por la latencia en la respuesta de los servidores y la red, más que el consumo de recursos de memoria de los clientes, por lo que, aunque sin perder de vista el factor de la eficiencia, éste resulta no ser algo cr´ıtico en los momentos actuales, al menos dentro del procesamiento de documentos XML. Sin embargo, SAX es una opción basada en el uso de comportamientos definibles por el usuario y es muy adecuada para el procesamiento de documentos de gran tama˜ no. Pese a que en los ejemplos prácticos el tama˜ no de los documentos en el Web no suelen ser demasiado voluminosos, un interfaz basado en este tipo de procesamiento puede ser deseable para automatizar tareas en el Web donde el volumen de los datos en un mismo documento suponen un tama˜ no considerable, por lo que no deben descartarse las aportaciones de SAX cuando sea necesario un tratamiento más eficiente de los documentos.

124

Cap´ıtulo 5 XTendedPath: Lenguaje para la consulta y modificaci´ on de documentos XML El lenguaje XTendedPath descrito en este cap´ıtulo es una propuesta de lenguaje que tiene dos usos principales: la consulta y la modificaci´ on de documentos XML, labores clave en el tratamiento automatizado de datos por parte de tareas que navegan automáticamente por el Web. La consulta de documentos es clave para la extracci´ on de datos relevantes, una de las acciones básicas expl´ıcitas mencionadas en el apartado 2.2. La modificación es clave para otras acciones, como la eliminación de datos irrelevantes, la emulación de comportamientos JavaScript cuando éstos afectan a la estructura del documento o para otros comportamientos relacionados con formularios. Por ejemplo, muchas veces, el documento Web no está formado sólo por contenidos generados en el servidor, sino que otros son generados en el cliente por JavaScript. Por otro lado, en ocasiones la mejor representación interna de un formulario relleno es el propio subárbol del documento que contiene ese formulario como elemento. As´ı pues, realizar modificaciones en el rellenado de ese formulario requiere entonces poder realizar modificaciones en la representación arbórea del documento. XTendedPath, al contrario de otras propuestas ya existentes como las mencionadas en el cap´ıtulo 3, está basada en varios estándares del W3C espec´ıficamente dise˜ nados para el direccionamiento de datos en el Web, como son el actual borrador de XPath 2.0 [141] y el estándar XPointer [138], aunque también toma ideas de XQuery, DOM y XUpdate. Hasta el momento actual, ning´ un trabajo conocido por el autor dentro del campo de la extracción de 125

datos del Web legado ha utilizado XPath 2.0. De los trabajos mencionados en el cap´ıtulo 3, sólo los más avanzados, como [94] han usado apenas XPath 1.0, que es la versión que está estandarizada actualmente, la cual se ha encontrado normalmente embebida dentro de hojas de estilo XSLT 1.0, para extraer los datos en forma de documentos. Otros trabajos, como [111] hacen uso de XQuery como lenguaje de consulta, pero sólo son aplicables a páginas Web muy estructuradas, asimilables a tablas y datos muy regulares, lo cual no es siempre factible. Por el contrario, XTendedPath está dise˜ nado para poder ser usado en cualquier página HTML o XML pese a que ésta carezca de una fuerte estructura.

5.1.

Problemas de XPath 2.0

Un problema general de la actual especificación de XPath 2.0, al menos tal y como está definido su actual borrador es que algunas tareas de extracción de datos no pueden ser realizadas con XPath 2.0. Por otro lado, otras tareas s´ı pueden ser realizadas, pero de una forma muy ineficiente. Todo ello está debido a ciertas carencias del lenguaje que son abordadas en esta sección y para las que XTendedPath, descrito en el apartado 5.3 se presenta como una solución, extendiendo a XPath 2.0 y a XPointer con un conjunto m´ınimo de constructores para poder aumentar considerablemente su expresividad. Si bien las carencias de XPath 2.0 a las que se hace referencia en este apartado pueden ser resueltas mediante el uso de funcionalidades propias de sus lenguajes anfitrión (normalmente plantillas XSLT), el hecho de delegar en esos lenguajes externos la programación de estas tareas impide a XPath ser usado por s´ı mismo como un lenguaje de consulta autocontenido y utilizable en entornos legados. A continuación se muestran algunos ejemplos de esos problemas, mencionados en [127]:

5.1.1.

Procesamiento incremental

La expresión “for” en XPath 2.0 no puede ser usada cuando el resultado de procesar cada elemento en una secuencia depende del procesamiento de los elementos anteriores. Es posible que en algunos casos ese procesamiento s´ı pueda realizarse, pero de una manera muy ineficiente. Por ejemplo: Calcular el producto de todos los n´ umeros de una secuencia Invertir el orden de una secuencia o los caracteres de un string 126

Concatenar todos los elementos string de una secuencia en uno solo Un ejemplo en el que una solución XPath 2.0 es dif´ıcil e ineficiente es el siguiente: Dada una secuencia de nodos book dentro de un documento XML que refleja las ventas de una tienda, calcular la cantidad de dinero vendido por cada libro (calculada como el producto de su precio por su n´ umero de unidades vendidas). El resultado debe devolverse en una secuencia de pares t´ıtulo, importe acumulado, donde t´ıtulo es el t´ıtulo de cada libro de la secuencia e importe acumulado es el importe acumulado por las ventas de los libros hasta ese momento, desde el principio de la secuencia de libros hasta el libro correspondiente a cada posición. Para obtener ese resultado, se puede usar la expresión escrita en XPath 2.0 que aparece en la figura 5.1: for $i in (1 to count($items)) return ($items[$i], sum( for $j in (sublist($items, 1, $i)) return (@price * @sales) ) )

Figura 5.1: Expresión XPath 2.0 que calcula importe de ventas con subtotales parciales La expresión de la figura 5.1 tiene complejidad cuadrática. Es decir, si N es el n´ umero de elementos dentro de $items, se realizan N × (N + 1) / 2 sumas y N × (N + 1) / 2 multiplicaciones, lo cual es bastante ineficiente desde un punto de vista de complejidad de algoritmos. Para conseguir expresar el algoritmo con complejidad lineal, mucho más eficiente, ser´ıa necesario usar una variable que acumulara las sumas parciales realizadas hasta el momento, con el fin de no volverlas a recalcular en posteriores iteraciones. As´ı pues, el algoritmo anterior deber´ıa poder reescribirse de una forma similar a la que aparece en la figura 5.2: $s = 0; for $i in (1 to count($items)) $s = $s + (@price * @sales); return ($items[$i], $s)

Figura 5.2: Pseudocódigo basado en variables que calcula subtotales 127

Pese a lo que pudiera parecer, la expresión de la figura 5.2 no es una expresión XPath. XPath es un lenguaje funcional basado en expresiones, no un lenguaje imperativo basado en sentencias, por lo que no permite la posibilidad de tener un bucle dentro del cual haya dos expresiones que deban ser evaluadas una detrás de otra como sentencias imperativas. El constructor for de XPath solamente admite una expresión return en su interior, que sirve para devolver el elemento que debe formar parte de la secuencia resultado, conforme se va recorriendo una secuencia de entrada. Por otro lado, pese a que en los lenguajes imperativos sea algo com´ un que una variable vaya siendo sobreescrita con diversos valores a lo largo de la ejecución, los lenguajes funcionales no permiten ese tipo de efectos laterales, porque se dedican a la mera evaluación de expresiones funcionales en las que los resultados se obtienen de aplicar funciones a unos argumentos. Dicho de otro modo, las variables en XPath pueden ser consultadas fácilmente, pero no pueden ser sobreescritas como en un lenguaje de programación imperativo. Por ese motivo, el código de la figura 5.2 deber´ıa en todo caso ser reconsiderado por uno que carezca de este tipo de problemas de efectos laterales y que tenga una notación completamente funcional, como el que aparece en la figura 5.3. sumalibros = function ($items, $acum) if $items = () then () else let $primer = first($items), $producto = $primer/@price * $primer/@sales in ($primer, $acum + $producto, sumalibros(tail($items), $acum + $producto)) end sumalibros($items, 0)

Figura 5.3: Pseudocódigo basado en funciones que calcula subtotales Como puede apreciarse en la figura 5.3, el código que aparece tiene una notación completamente basada en expresiones y no en sentencias, propio de un lenguaje de programación funcional. Para ello se ha creado una función auxiliar llamada sumalibros que devuelve la secuencia vac´ıa cuando la secuencia de entrada $items está vac´ıa y genera el resultado de la forma deseada, acumulando el producto de cada libro en un subtotal que se va acarreando para el resto de los elementos de la secuencia. Para construir el código de la figura 5.3 se han usado dos importantes caracter´ısticas no existentes en XPath 2.0. Por un lado, se ha definido una función auxiliar de usuario, denominada sumalibros de dos argumentos y posteriormente se ha llamado a esa función para calcular el resultado final. En 128

términos de programación funcional al nombre sumalibros se le ha asociado una expresión lambda [90] o función de usuario. Los lenguajes funcionales suelen definir también variables con una construcción let en la que se declara una variable a la que se le asocia un valor que es inmutable a lo largo de toda la ejecución, como por ejemplo en la expresión: let $i = 3 in $i + $i, cuyo resultado ser´ıa 6. Sin embargo, ni las expresiones lambda ni el constructor let forman parte del lenguaje XPath. El constructor let (que a su vez también puede ser reescrito como una expresión lambda) forma parte del lenguaje XQuery (basado en XPath 2.0), pero no está considerado en XPath 2.0. Por otro lado, aunque en XPath está permitida la llamada a funciones, éstas no tienen forma de ser construidas por los usuarios y su uso se limita a un conjunto reducido de funciones localizables en bibliotecas del lenguaje.

5.1.2.

Dificultad para calcular valores agregados

XQuery permite la definición de funciones de usuario y del constructor let. Sin embargo XQuery, al igual que XPath, presenta dificultades para calcular valores agregados de una secuencia, especialmente cuando esos valores deben ser calculados de una forma no trivial. Por ejemplo: Obtener los nodos con máximo valor de una secuencia, especialmente en el caso en el que el valor de cada nodo de esa secuencia deba ser computado por una expresión compleja. Obtener los nodos con distinto valor de una secuencia, especialmente en el caso en el que el valor de cada nodo de esa secuencia deba ser computado por una expresión compleja. En XPath 2.0 no existe una forma genérica de evaluar este tipo de expresiones recibiendo como parámetro una función que eval´ ue esas expresiones complejas a las que se hace referencia. Por esa razón, en XPath 2.0 deben escribirse multitud de expresiones similares, cada una de ellas para cada posible expresión compleja y sin posibilidad de ser reutilizadas. Estas repeticiones y la falta de capacidad de reutilización del código provoca grandes consumos de tiempo, propensión a errores y generalmente ocasionan la generación de código dif´ıcilmente mantenible y poco reutilizable. Ejemplos de problemas de este tipo son los siguientes: Obtener la suma de los cuadrados de los n´ umeros de una secuencia 129

Extraer aquellos n´ umeros de una secuencia, para los cuales f(item) es m´ınimo Para una función f(), comprobar que todos los valores f(item) de una secuencia son mayores que cero (o menores o iguales a cualquier otro valor) Para una función f(), comprobar que todos los valores f(item) de una secuencia aparecen en orden creciente Para las expresiones anteriores, aunque es posible encontrar una solución basada en XPath, ésta será dif´ıcil e ineficiente. Además, para cada posible función f() deberá reescribirse cada expresión, ya que las funciones no pueden ser pasadas como argumentos a otras funciones.

5.1.3.

Combinar dos o m´ as secuencias en una nueva

Es posible querer combinar dos o más secuencias en una sola. Dadas (a1 , a2 , ..., aN ) y (b1 , b2 , ..., bN ) con XPath no es sencillo calcular expresiones como: (a1 + b1 , a2 + b2 , ..., aN + bN ) (suma elemento a elemento) (a1 × b1 , a2 × b2 , ..., aN × bN ) (producto elemento a elemento) (a1 ∧ b1 , a2 ∧ b2 , ..., aN ∧ bN ) (conjunción lógica and elemento a elemento) ...

5.1.4.

XPath no puede expandirse indefinidamente

La complejidad de XPath ha crecido considerablemente en los u ´ltimos tiempos, pasando de ser un sencillo conjunto de expresiones a un lenguaje mucho más potente. Sin embargo, la capacidad de seguirse expandiendo resulta un tanto limitada. Por otro lado, aunque en el grupo de trabajo están trabajando en una homogeneización del lenguaje, existen ahora mismo varias formas de expresar tareas similares. Ello indica hasta qué punto es necesario reordenar la capacidad de expansión del lenguaje, y que actualmente está a´ un en una fase inmadura y es compleja y dif´ıcil de organizar. Un lenguaje que 130

proporcione soporte al orden superior puede proporcionar una solución simple y elegante, a la vez que flexible y potente. Ser´ıa deseable que las principales funcionalidades del lenguaje (operadores, constructores y funciones) pudieran ser reducidas a un m´ınimo mientras que el lenguaje permita que nuevas funcionalidades puedan ser fácilmente producidas y acumuladas en una biblioteca de funciones reusables de uso general.

5.1.5.

Poca flexibilidad para llamar a ciertas funciones

La llamada a funciones como sort o distinct-values resulta poco flexible ya que no es posible especificar las funciones de comparación entre elementos. Ser´ıa deseable poder ordenar una secuencia pudiendo especificar el criterio de ordenación en una función definible por el usuario y con la que se pudiera parametrizar el comportamiento de la función sort.

5.1.6.

Poca reusabilidad para expresiones de tipo “for”

En la expresión de la figura 5.4, la expresión expression no puede ser reutilizada, salvo que se copie y pegue en otro sitio, debiendo ser modificada de forma que las referencias a la variable del rango que recorre la secuencia sean convenientemente renombradas. for $i in $sequence return expression

Figura 5.4: Ejemplo de expresión de tipo for Por el contrario, con soporte a funciones de orden superior, podr´ıa usarse la función map(f, $sequence) como equivalente a la de la figura 5.4 de forma que el código de la función f() no deba ser modificado.

5.2.

Soluciones basadas en funciones de orden superior

Suponiendo que en XPath se pudieran definir funciones de orden superior, los problemas listados en el apartado 5.1 podr´ıan ser resueltos de forma 131

sencilla. Dado que, lamentablemente, no existe en XPath la posibilidad de definir funciones de usuario, para demostrar la facilidad de programación de esta aproximación y su fácil legibilidad por los usuarios programadores, los siguientes ejemplos están proporcionados en lenguaje Haskell [113]. En el apartado 5.5.2 se proporciona una reescritura de este tipo de funciones en XTendedPath, la extensión de XPath que se presenta en el apartado 5.3. El lenguaje Haskell se usa en este apartado solamente como ejemplo de conveniencia. En ning´ un caso se intenta recomendar con ello que su sintaxis sea adoptada por XPath 2.0. Para comprender los siguientes ejemplos, algunas convenciones de Haskell deben ser explicadas. Convenciones de representaci´ on en Haskell Definir una función en Haskell es muy sencillo. La expresión f x y = x * y define una función f que devuelve el producto de sus dos argumentos. La expresión [1, 2, 3] expresa una lista formada por tres elementos, similar a la secuencia (1, 2, 3) de XPath. [] denota la secuencia vac´ıa, equivalente a () en XPath. Un operador infijo puede ser usado como una función cuando se le escribe entre paréntesis. De esta forma: (+) 1 2 = 1 + 2 = 3. El operador : es usado para indicar que un elemento está al principio de una lista. De esta forma, x : xs define una lista donde x es el primer elemento y xs es el resto de la lista. La función flip toma como argumento una función y otros dos argumentos y produce como resultado la llamada a esa función tomando los argumentos en orden inverso. As´ı: flip f x y = f y x. Igualmente, la recursión a lo largo de los elementos de una lista puede ser definida como aparece en la figura 5.5. La función foldl toma tres argumentos, una función f(), que toma dos argumentos, un valor z y una lista. foldl es una de las funciones más generales que trabajan sobre listas. Recorre la lista de izquierda a derecha, aplicando f() a cada elemento y al resultado acumulado hasta el momento, que es tenido en cuenta para el siguiente elemento de la lista. De una forma similar, también puede ser definida foldr. Como puede comprobarse fácilmente, foldl (+) 0 xs es la suma de todos los elementos que aparecen en la secuencia xs. De la misma forma, podr´ıa escribirse sum xs = foldl (+) 0 xs para definir la función sum. Análogamente, se podr´ıa definir product xs = foldl (*) 1 xs que calcular´ıa el producto de los elementos de una secuencia, lo cual ser´ıa una solución para uno de los 132

foldl f z [] foldl f z (x:xs)

= z = foldl f (f z x) xs

Figura 5.5: Ejemplo foldl en Haskell problemas apuntados en el apartado 5.1.1. Por otra parte, las funciones pueden usarse de forma currificada, lo cual quiere decir que las definiciones anteriores podr´ıan haber sido reescritas de la siguiente forma: sum = foldl (+) 0 y product = foldl (*) 1. Invertir el orden de una lista (problema apuntado en la sección 5.1.1) puede ser fácilmente realizable con reverse = foldl (flip (:)) []. Concatenar los elementos de una lista (problema también apuntado en la sección 5.1.1) puede realizarse llamando simplemente a la función concat = foldr (++) [] donde (++) es el operador de concatenación para listas. Por otro lado, combinar dos listas de igual longitud en una sola puede ser realizado con la función zip() que aparece en la figura 5.6. En ella, la función f() es aplicada a cada par de elementos de la misma posición en ambas listas, y el resultado de esa función forma el elemento que está en esa posición dentro de la secuencia resultado. zip f (a:as) (b:bs) zip _ _ _

= f a b : zip f as bs = []

Figura 5.6: Ejemplo zip en Haskell La función zip() resuelve directamente muchos de los problemas mencionados en el apartado 5.1.3. Por ejemplo (a1 + b1 , a2 + b2 , ..., aN + bN ) es solamente zip (+) as bs. (a1 × b1 , a2 × b2 , ..., aN × bN ) es solamente zip (*) as bs. Una función muy u ´til es scanl(), definida en la figura 5.7. scanl f q ys = q : (case ys of [] -> [] x:xs -> scanl f (f q x) xs)

Figura 5.7: Ejemplo scanl en Haskell 133

scanl es similar a foldl, salvo por el hecho de que crea una lista con todos los resultados intermedios acumulados, de forma que el primer elemento de la lista resultado es q y el u ´ltimo es el resultado acumulado de toda la lista de entrada. La longitud de la secuencia de salida es superior a la de entrada en una unidad. En el caso en el que esté garantizado que la secuencia de entrada xs no esté vac´ıa, la siguiente función scanl1 puede ser definida, conforme a la figura 5.8. scanl1 f (x:xs)

= scanl f x xs

Figura 5.8: Ejemplo scanl1 en Haskell scanl1 se comporta igual que scanl, salvo que no toma un argumento como base o elemento neutro, sino que toma al primer elemento de la lista como elemento base para calcular las acumulaciones. Como puede comprobarse, scanl1 op xs produce una lista de longitud igual a la de xs en la que aparecen los resultados acumulados de la operación op desde el principio de la lista hasta la posición actual. Por ejemplo: scanl1 (+) [1, 2, 3] = [1, 1+2, 1+2+3] = [1, 3, 6]. scanl1 puede ser usado en combinación con zip para resolver el problema mencionado en el apartado 5.1.1. Por ejemplo, scanl1 (+) (zip (*) [1,2,3] [2,2,2]) devuelve [2, 6, 12], que es básicamente lo que se quer´ıa calcular con el problema de las ventas de los libros. Si se asocia a la función filter el significado de los predicados de XPath, de forma que filter p xs = [ x | x ∈ xs ∧ p x ], pueden encontrarse fácilmente soluciones para los problemas mencionados en el apartado 5.1.2. Por ejemplo, se pueden calcular todos los elementos de una secuencia para los cuales f(item) es m´ınimo con la expresión de la figura 5.9. En ella se declara ys como una lista temporal que almacena el resultado de aplicar la función f() a la secuencia de entrada, se declara fmin como el m´ınimo valor de esa secuencia, y a continuación se seleccionan aquellos elementos de la secuencia de entrada para los que f() da ese valor m´ınimo fmin. El punto es considerado en Haskell como el operador de composición de funciones. De una forma similar, en la figura 5.10 se puede comprobar si para todos los elementos de una secuencia se cumple que una función f() devuelve resultados positivos. Finalmente, comprobar que, para una secuencia y una función f(), el re134

minvals f xs = let ys = map f xs in let fmin = minimum ys in filter ((= fmin) . f) xs

Figura 5.9: Elementos para los que f() es m´ınimo allFPositive f xs = let ys = map (( > 0) . f) xs in foldl and true ys

Figura 5.10: Determinar si para una secuencia se devuelve todo positivo sultado de aplicar f() a la secuencia proporciona una secuencia ordenada creciente, es igualmente sencillo. En la figura 5.11 aparece un ejemplo basado en foldl y zip. En ella se declara zs como el resultado de aplicar f() a la secuencia de entrada. Posteriormente, la lista zs es fragmentada en dos sublistas. init zs contiene la sublista en la que se ha eliminado el u ´ltimo elemento y tail zs contiene la sublista en la que se ha eliminado el primer elemento. Para esas dos sublistas, se comprueba que los elementos están ordenados por parejas y finalmente se dilucida si todas esas parejas cumplen el hecho de estar ordenadas o si, por el contrario, hay alg´ un elemento en desorden. allFIncreasing f xs = let zs = map f xs in let ys = zip (

Automatizacion de Tareas en El Web

Short Description

Description

Comments

We need your help!