Organiser Sa Gestion Documentaire

August 30, 2017 | Author: Taouche | Category: Search Engine Indexing, Semantics, Records Management, Document, Information

Share Embed Donate

Report this link

Short Description

Download Organiser Sa Gestion Documentaire...

Description

organiser sa gestion documentaire

http://www.clever-age.com

organiser sa gestion documentaire (première partie)

Selon un sondage 2002 organisé par le Delphi Group, la plupart des entreprises manquent considérablement d’organisation pour leur gestion documentaire. Les résultats de ce sondage annoncent que près de 70% des utilisateurs n’arrivent pas à (re)trouver sur le réseau les informations dont ils ont besoin. Etant dans la nécessité d’exploiter des dossiers, des articles, des documents capitalisés sur leur intranet ou sur le Web, les employés passent près de deux heures par jour à chercher ces informations ; soit environ cinq jours pas mois, et soixante par ans ! Cette perte de temps doit être prise en compte par l’entreprise. Si les documents sont réutilisés, améliorés chaque jour, les dernières mises à jour disponibles posent souvent un problème de coordination entre les intéressés. De plus, la quantité d’information produite par chaque employé double en moyenne tous les deux ans. La gestion du cycle de vie des documents (archives, versions) crée une quantité de données grandissant de manière exponentielle, ce qui devient vite ingérable si une solution n’est pas mise en place. En étudiant le travail des documentalistes, on peut retrouver ces méthodes. Les opérations de tri manuel ne sont pas de bonnes solutions pour les grandes entreprises en phase d’expansion. On peut donc se demander quels sont les cheminements à suivre pour aboutir à un système ordonné : comment adapter sa démarche pour trouver un système de classement automatique et de recherche performant, capable de s’adapter à l’activité de l’entreprise ? Nous verrons qu’il s’agit de réunir l’ensemble des sources de données à étudier, puis de les décrire chacune de manière détaillée. Ces descriptions pourront suivre plusieurs types d’analyse différents, ce qui, selon le métier étudié, permettra une classification intelligente et bien représentative de l’activité de l’entreprise. Il ne restera plus qu’à choisir les interfaces de recherche que l’on souhaite implémenter.

LES SOURCES DE DONNÉES Avant de s’intéresser aux types de solutions existantes, on doit pouvoir être capable de définir l’univers documentaire que l’on veut exploiter. L’information étant la plupart du temps disséminée sur des disques physiques, dans des bases de données, sur le web (intranet, extranet...), il est nécessaire d’avoir accès à tous ces supports de stockage pour pouvoir prendre en compte la totalité de l’univers. Cette collecte d’information peut poser des soucis, notamment pour la lecture de certains fichiers comme les formulaires html, les documents multilingues ou dotés de caractères spécifiques (UTF-8, ISO-8859-15...). Un utilisateur doit, dans sa démarche, établir la liste de tous les formats documentaires à traiter (pdf, excel, xml...), mesurer l’espace disque que représente son patrimoine, différencier les types de contenus (journalistique, scientifique, biologique...), établir les permissions qui leurs sont accordées (on parle deworkflow documentaire), recenser le nombre de langues différentes (française, anglaise, espagnole...) et les jeux de caractères utilisés (ISO, UTF...). Fort de cette inventaire, on peut mieux définir les bases d’une indexation, et chercher un outil qui répond aux contraintes techniques existantes.

1

organiser sa gestion documentaire

http://www.clever-age.com

L’INDEXATION ET LE CLASSEMENT Définition

L’indexation d’un texte consiste à repérer et extraire certains mots ou expressions particulièrement significatifs (appelés « termes ») dans un contexte donné, et à créer un lien entre ces termes et le texte original. L’outil de choix sera capable d’attribuer à chaque document des marques distinctives, renseignant avec pertinence sur le contenu, en vue de le classer. L’indexation distingue généralement les informations sur la structure du document (ou si l’on préfère les « méta données » ; on parle de l’intention du document) des informations de contenu propre à chaque document (l’extension du document). Toutes ces informations constituent ce qu’on appelle unetaxinomie : une chaîne composée de valeurs nécessaires et suffisamment significatives pour identifier le document parmi toute une diversité [1].

Voici typiquement un problème de content management system (système de gestion de contenu) : comment définir la taxinomie de ses documents ? Il faut en premier lieu définir un objet « document » qui porte en lui toutes les caractéristiques des documents du patrimoine :

Une taxinomie des documents pourrait donc être organisée selon ces quatre couches descriptives, chacune définissant les propriétés vitales du document. On pourra par la suite lancer des recherches sur tous les attributs de description qui ont servi à l’indexation (recherche par date, propriétaire, langue, titre, plein texte, typographie...). Le stockage de l’information On utilise des structures de stockage pour conserver ces informations de classification. Les solutions techniques les plus fréquemment utilisées sont des tables de hachage ou des arbres AVL qui assurent la gestion des données de masse.

2

organiser sa gestion documentaire

http://www.clever-age.com

Si la structure d’indexation ne s’équilibre pas, ses catégories seront délocalisées ou noyées dans la masse d’information ; si l’analyse appliquée n’est pas spécialement adaptée aux types de contenus à traiter, des anomalies de sens dans le classement entraineront forcément des surplus d’incohérence ; si les documents sont trop volumineux, les tables d’indexation risquent de devenir presque aussi grandes que le capital lui même.

• •

• •

•

On emploie donc de nombreuses techniques de compression, qui réduisent ces bases volumineuses, les rendants plus concises et mieux exploitables : stop words : interdire les traitements des mots redondants (la, le, un...) ; stemming : réduction des mots par découpage ; case folding : rassemblement des mots semblables mais écrits légèrement différemment ; le but est d’éviter les doublons de valeurs identiques (ex : de gaulle, degaulle, DeGaulle, DEGAULLE...). De plus, les techniques de logique floue permettent aujourd’hui de conceptualiser un contenu, en « arrondissant » chaque phrase à sa valeur utile. Toujours dans le but d’éviter les erreurs de sens, laphonétisation permet de mener une analyse secondaire uniquement basée sur la sonorité des mots, ce qui réduit les possibilités de sens erroné. La catégorisation documentaire L’ensemble étant proprement indexé, il faut alors choisir une méthode pour classer les documents futurs ! Chaque document entrant devra suivre le processus de catégorisation et trouver une place unique dans le classement. On parlera de catégorisation : Manuelle : c’est une solution difficile à mettre en œuvre. Pour un petit patrimoine, cela reste toujours une solution mais la démarche n’est pas complète. Par moteur de règles : typique du modèle efficace mais vite complexe. L’ordonnancement des règles doit suivre une logique de traitement préétablie, c’est à dire un traitement séquentiel afin d’éviter qu’un document ne suive une règle avant une autre. On se retrouve alors face à des soucis de maintenance (ordonnancement) et de modification de ces règles (effet de bord), d’où le besoin de prendre des précautions exemplaires de manipulation, voire de se faire seconder d’une ressource compétente. Par apprentissage supervisé : le système nécessite un entraînement. Celui-ci se fait en donnant à l’agent (l’élève) une entrée ainsi que le résultat qui devrait théoriquement être obtenu. L’agent cherchera à minimiser l’erreur en comparant chaque document entrant avec les exemples de référence ; il tentera de se rapprocher de la solution la plus adéquate. Pour affiner le calcul, l’emploi des exemples négatifs permet d’ajouter un concept d’exception.

3

organiser sa gestion documentaire

http://www.clever-age.com

•

Par apprentissage automatique : les résultats sont assez encourageants dans le domaine de la construction automatique d’ ontologies [2] par analyse de corpus de textes propres à un domaine. Dans ce cas, le système construit une liste des principaux termes récurrents et tente de les relier en utilisant un dictionnaire ou un glossaire ainsi qu’une base de règles grammaticales (voir par exemplealtavista 2.0). L’étude du contenu se fait par exploitation du texte (text minnig). L’état de l’art aujourd’hui consiste à coupler une analyse linguistique à des algorithmes éprouvés de reconnaissance de forme (SPSS/Lexiquest, SAS/inxight). Pour assurer la compatibilité, les moteurs d’indexation et de recherche sont souvent couplés (ex : Tropes/Zoom/index d’Acetic) ; ils peuvent la plupart du temps se greffer sur des applications de gestion répandues (Lotus/IBM, SharePoint/Microsoft). On trouve une grande diversité de choix et la concurrence se fait rude. La lutte se tient entre l’intéropérabilité de logiciels variés qui dialoguent ensemble, ou le choix d’un progiciel de gestion unique.

CONCLUSION Dénombrer, rassembler et différencier son univers documentaire permet une indexation globale de ses documents. Mais cette indexation ne prend pas en compte la valeur sémantique des documents : une phase d’analyse linguistique supplémentaire est nécessaire pour permettre des recherches plus élaborées sur les contenus. Cette seconde phase fera l’objet de notre prochaine chronique : Organiser sa gestion documentaire (deuxième partie) : Analyse linguistique et recherche. [1] le terme taxinomie est généralement utilisé dans le contexte de la biologie pour la classification des espèces ; voir par exemple cette taxinomie des animaux [2] voir à ce sujet une étude sur les ontologies et l’intéropérabilité

4

organiser sa gestion documentaire

http://www.clever-age.com

Dans notre dernière chronique : « comment organiser sa gestion documentaire ? », nous avons présenté les techniques d’indexation de documents. Si celles-ci autorisent des recherches lexicalesou sur des bases de « mots-clés », elles ne permettent pas d’effectuer des recherches sémantiques(prenant en compte le sens des mots). Pour ce faire, une suite d’analyses linguistiques est nécessaire.

LES ANALYSES DOCUMENTAIRES Le but est de parvenir à dégager le sens des mots et des phrases constituant le contenu, ce afin d’affiner les rapports contextuels entre les documents et répondre ainsi plus précisément à des besoins métiers. Avant de pouvoir opérer l’analyse sémantique, il faut au préalable passer par plusieurs étapes d’analyse : l’analyse morphologique et l’analyse syntaxique.

Outre ces trois types d’analyse, un dernier type sera présenté ; il est utilisé pour la restitution des résultats d’une recherche : l’analyse statistique. Nous aurons ainsi fait le tour des différents types d’analyse documentaire possibles. L’analyse morphologique Ce type d’analyse, mis en place par F. Zwicky lors de la seconde guerre mondiale, explore les futurs possibles d’un objet en le décomposant et en étudiant toutes ses combinaisons natives. En clair, il s’agit de développer chaque mot d’un texte dans toutes les formes qu’il peut avoir (ce travail rappelle les analyses que font les enfants dans les classes primaires pour assurer leur compréhension globale de la phrase). Dans un premier temps, cette analyse développe les termes, ce qui permet de connaître leur racine propre ; dans un deuxième temps, elle va chercher à découvrir la nature et la fonction de chaque terme dans la phrase. Elle pourra alors détecter sa signification réelle et supprimer de nombreux litiges. Exemple : ’un as de pique’ ne fait pas référence au verbe avoir du présent à la deuxième personne du singulier.

5

organiser sa gestion documentaire

http://www.clever-age.com

L’analyse syntaxique Il s’agit de regrouper les unités lexicales en structures grammaticales, afin de comprendre la structure d’un texte. Elle peut extraire une qualification affinée des documents soumis, et organiser une structure imbriquée du document (un exemple d’analyseur syntaxique). A ce stade il est donc possible de rassembler des corpus de textes, en basant la recherche sur : •

des verbes, des adjectifs qualificatifs, des noms Propres...

•

un champ lexical (les mots d’une même phrase)

•

des grammaires spécifiques (par exemple, les paragraphes contenant les mots X et Y dans une même phrase)

•

ect. L’analyse syntaxique donne accès à une hiérarchisation très ségmentée du texte, et est donc très utile pour résumer des contenus. L’analyse sémantique L’analyse sémantique a pour but de faire ressortir le sens profond du document en cherchant à répondre aux questions de contexte : Qui ? Quoi ? Où ?... La réponse à ces questions se fait grâce à des algorithmes de gestion de Thesaurus métier qui trouvent les chemins d’un terme jusqu’à tous ses concepts voisins, parents, dérivés, etc. Les thésaurus les plus communs harmonisent la communication et le traitement de l’information en reliant :

•

Les termes génériques

•

Les termes spécifiques

•

Les termes équivalents

•

Les termes associés

6

organiser sa gestion documentaire

http://www.clever-age.com

Il existe de nombreuses possibilités sur les types de liaisons qui rattachent deux terme, et le système pourra prendre en compte : •

l’appartenance (un "lexème" appartient à un "lexique")

•

l’attribut ("passé" et "futur" sont des attributs de "temps")

•

la causalité ("L’anthrax a tué un américain")

• •

l’hypéronymie / l’hyponimie (voir une définition de ces termes) les liens connexes ("souris" et "clavier" sont des concepts proches)

•

les métonymies / synecdotes

•

la production ("Lotus" produit par "IBM")

•

la substance (la "baignoire" est en "fonte")

•

la succession

•

la synonymie/ l’antonymie

•

etc. Les thesaurus les plus répandus concernent généralement un domaine précis (le calcul mathématique, la médecine, la recherche en aérodynamique, etc.). Il n’existe pas encore de solution standardisée par domaine dans une structure universelle ; les recherche en RDF/XML annonceront peut être un jour la sortie d’une ontologie homogène pour tous. Face à ce manque de standardisation, les systèmes d’aujourd’hui exécutent leurs analyses en partant depuis un thesaurus vide et exploitent les processus de catégorisation automatique, créant ainsi un dictionnaire adapté à leur entreprise. Cette étude au niveau du sens offre bien souvent la possibilité de faire des recherches en langage naturel [1]. Cela signifie que l’utilisateur pose sa question à la machine comme à un interlocuteur normal, et que le moteur est capable d’interpréter et de traduire cette demande en une équation spécifique. Pour en savoir plus :

•

Analyse sémantique par Semantis

7

organiser sa gestion documentaire

http://www.clever-age.com

L’analyse statistique Dans le cadre d’une recherche, après une requête utilisateur, les résultats sont trop désordonnés pour être exploitables ; ils ont tous un lien direct avec la question de l’utilisateur mais ils ne sont pas classés. L’analyse statistique capitalise la pertinence des réponses et les présente selon l’ordre le plus adéquat à la demande. Des calculs de probabilité permettent de mieux comprendre les utilisateurs et de fixer progressivement leurs intérêts propres, en gardant en mémoire ses recherches précalculées. Le système mis en place doit être capable de prendre en compte la position hiérarchique de chaque utilisateur : d’une part, celui-ci doit être guidé vers les documents qui sont le plus en rapport avec son activité ; d’autre part, le système doit assurer la sécurité et la confidentialité des résultats, selon unworkflow documentaire configurable et éprouvé. L’analyse statistique est aussi capable de fournir aux utilisateurs une assistance visuelle de recherche offrant tous les éléments d’aide à la prise de décision. Il peut s’agir de plusieurs choses différentes et non incompatibles : •

des arbres de recherche classés par sujet, concept, auteur, date, type de documents, etc. ;

•

une adéquation entre l’utilisateur et le système (question/réponse pour éviter les dialogues de sourds, en interrogeant l’utilisateur face à certains litiges, et en lui suggérant des solutions de réponses cadrées dans son métier) ;

•

des réseaux d’alertes automatiques et paramétrables afin de se tenir au courant des évolutions de ses centres d’intérêt, sur tout un patrimoine documentaire et sur internet (veille concurrentielle).

LES INTERFACES DE RECHERCHE Chaque moteur de recherche met en place un dialogue entre l’utilisateur et le système. Il y a deux phases distinctes : la formulation de la question et la présentation des résultats. Avant de parcourir la classification documentaire, le sytème doit étudier la question elle même. Celle-ci peut en effet contenir des fautes, des termes dérivés par rapport à un contexte souhaité, des syntaxes approchées, etc. On peut rechercher quelque chose de simple en formulant une grande quantité de termes, ce qui peut aussi controverser ou embrouiller la demande ; le système doit alors réduire la question à sa valeur utile. Le moteur passe par des traitements (semblables aux analyses documentaires) qui traduisent la demande de l’utilisateur en équation appropriée au système et peuvent retourner beaucoup d’informations contextuelles avoisinant la recherche (voir par exemple l’interface d’exalead).

8

organiser sa gestion documentaire

http://www.clever-age.com

En ce qui concerne la présentation, le résultat final se solde par une liste d’éléments renvoyés, à laquelle s’adjoignent de multiples services. L’interface la plus classique : •

affiche le nombre de résultats trouvés et la pertinence associée à chaque réponse ;

•

associe chaque résultat à une une icone (type de document) ;

•

donne un descriptif (résumé) du passage pertinent. Pour permettre une plus grande souplesse de visualisation des objets trouvés, l’interface doit :

•

offrir une pagination d’affichage modulable (nombre de résultats par page) ;

•

rappeller la requête formulée par l’utilisateur et suggérer des requêtes avoisinnantes ;

•

permettre le tri des résultats selon les caractéristiques de chaque document (par date, par pertinence, par auteur, par thèmes voisins, etc.) ;

•

etc. Si une réponse est sélectionnée, le système doit fournir des outils pour consulter la partie intéressante du document dans un format natif (xls, doc, pdf...) avec une mise en évidence visuelle des éléments caractéristiques. Des raccourcis permettent d’exploiter facilement l’information intéressante (impression, copier/coller, envoyer à quelqu’un,

9

organiser sa gestion documentaire

http://www.clever-age.com

etc.). L’ergonomie simple et soignée sera le reflet d’une meilleur prise en main du système, pour toutes les cibles utilisatrices (accessibilité, simplicité, flexibilité). Pour en savoir plus, voici quelques moteurs de recherche spécifiques à un métier : • • • • •

moteur cartographié de kartoo moteur juridique francophone moteur d’Ariane, qui peut associer 1100 résultats de moteurs de recherche un annuaire de moteur de recherche les relations entre les moteurs de recherche Se munir d’un tel système au sein de son système d’information n’implique pas forcément une remise en question de tous ses outils. Ce sont généralement des briques relativement indépendantes et interchangeables ; et qui plus est quasiment transparentes pour les usagers : tout au plus, une légère modification des interfaces peut se révéler nécessaire afin d’incorporer les nouvelles fonctionnalités du moteur de recherche. L’amélioration de la puissance du moteur de recherche contribuera à augmenter la productivité des employés et par là la performance de l’entreprise.

CONCLUSION D’un patrimoine désordonné, on peut construire un ensemble organisé, hiérarchisé, cartographié, qui simplifie efficacement la réutilisation des documents. Le cheminement à suivre pour ordonner son système se fait par la collecte des sources de données, l’indexation concise de son univers (concept, segment, sous-segment...), l’exécution d’analyses documentaires en plein texte et le choix d’interfaces de recherche à implémenter. A chacune de ces phases, on choisira en option les services secondaires que l’on souhaite ajouter afin de rendre le système plus ergonomique. Ces systèmes de recherche et d’indexation se révèlent même aujourd’hui être indispensables pour certains métiers spécifiques (la médecine, le français médiéval, etc.). A chaque entreprise d’établir son mode de fonctionnement pour connaître ses besoins réels. De nombreuses sociétés sont spécialisées dans le domaine et proposent du conseil pour choisir le meilleur produit, inventorier les services secondaires à ajouter ou encore effectuer l’installation totale du système d’indexation et de recherche (voir ce panorama d’outils). [1] Langage naturel par Spirit

10

Organiser Sa Gestion Documentaire

Short Description

Description

Comments

We need your help!