Module 2 - Le document structuré

 

2.1. Qu'est-ce qu'une structure ?

Avant de pouvoir répondre aux questions "qu’est-ce qu’un document structuré ?" et "qu'apporte son utilisation ?", qui font l'objet de ce module de cours, il est indispensable de s’accorder sur le terme de "structure d’un document".

Décrire la structure d'un document consiste à identifier et décrire chacun des éléments textuels - ou non textuels - qui le constituent. Ceci dit, cette description peut prendre plusieurs formes. En effet, on distingue, en général, deux types de structure : la structure physique et la structure logique.

Prenons l'exemple d'un sommaire de périodique et essayons de définir la structure de la référence à un article donné.

Exemple de sommaire

Si l'on s'attache à retrouver la structure physique de ce document, on décrira sa mise en page, on définira les différentes zones de texte, leur agencement les unes par rapport aux autres, ainsi que l’ensemble de leurs caractéristiques typographiques : police, couleur, gras, italique, etc... Dans le cas présent, le document est constitué de deux colonnes, dans la première on trouve une image et un petit bloc de texte blanc sur fond rouge en incrustation. Dans la seconde colonne on peut identifier trois blocs de texte, situés les uns au-dessus des autres et ayant chacun des caractéristiques typographiques propres.

structure physique

 

Si l'on s'intéresse maintenant à la structure logique, on décrira plutôt le rôle et la nature de chaque élément d’un document ainsi que l’ensemble des liens hiérarchiques et/ou logiques qui les lient les uns aux autres.

structure logique

Ici le document étudié est la référence à un article ; on peut clairement identifier une référence de type graphique, correspondant à une image caractéristique de l'article, et une référence textuelle composée de plusieurs éléments : le titre de l'article, le chapeau (ou accroche) et le nom de l'auteur.

On notera qu’une structure physique bien conçue aura pour principale qualité de rendre lisible la structure logique du document ce qui peut amener à confondre les deux. Cependant, il est important de bien faire la distinction entre ces deux types de structuration, car même si elles peuvent conduire toutes deux à un découpage du document équivalent, la manipulation des éléments du document et l’accès à chacun d’eux sont très différents.

 

2.2. Qu'est-ce qu'un document structuré ?

Dans le monde de l’édition et de la diffusion électronique de documents, les langages les plus couramment utilisés permettent d’encoder le document sous une forme "ASCII balisée". C’est à dire que les documents sont entièrement écrits avec le jeux de caractères élémentaire ASCII et que chaque élément du texte est "marqué ou décrit" par des balises. Aux deux natures de structures que nous avons vues correspondent deux jeux de balises ou langages distincts.

Revenons à l'exemple précédent ...

Voici ce que donnerait un encodage HTML de notre référence. On qualifie ce type de balisage de "procédural" car il décrit l'ensemble des procédures de mise en forme à appliquer à chaque élément du texte. Les balises ne contiennent donc que des informations de nature "typographique".

Balisage procédural du texte

<FONT COLOR="red" FACE="Helvetica" SIZE="18pt" ALIGN="left">Faites place aux artistes in vitro </FONT>

<FONT COLOR="black" FACE="Times" SIZE="12pt" ALIGN="left">Créateurs transgéniques, peintres sur cellules de papillons, une poignée de "bioartistes" veut s'emparer de la révolution biotech... </FONT>

<FONT COLOR="red" VARIANT="small-caps" FACE="Helvetica" SIZE="12pt" ALIGN="left">Alexandre Piquard </FONT>

Affichage, par un navigateur, du document balisé

Faites place aux artistes in vitro

Créateurs transgéniques, peintres sur cellules de papillons, une poignée de "bioartistes" veut s'emparer de la révolution biotech...

ALEXANDRE PIQUARD

Par contre, si on choisit d'encoder notre document selon les normes SGML et XML, on lui appliquera un marquage qualifié de descriptif. Les balises décrivent le rôle de chaque élément du texte. Les caractéristiques typographiques du document sont stockées séparément sous la forme d'une feuille de style associant une mise en forme à chaque nature d'élément.

Balisage descriptif du texte

<REFERENCE>

 

<TITRE>Faites place aux artistes in vitro </TITRE>
<CHAPEAU>Créateurs transgéniques, peintres sur cellules de papillons, une poignée de "bioartistes" veut s'emparer de la révolution biotech... </CHAPEAU>
<AUTEUR>Alexandre Piquard </AUTEUR>

</REFERENCE>

Les documents ainsi encodés sont totalement indépendants du support de consultation : le contenu du document est stocké à part de toute information liée à la restitution. Un affichage écran, une impression papier quel qu'en soit le format (A4-A5, multicolonnage, etc) voire une restitution orale, ne diffèreront finalement que par la feuille de style utilisée pour la restitution du document qui, lui, reste inchangé.

Restitutions

 

2.3. A quoi sert le document structuré ?

Outre la pérennité de l'archivage et la multiplication des modes de restitution du document, préoccupations propres à l'auteur ou au diffuseur, l'utilisation du document structuré va permettre au lecteur lui-même une utilisation beaucoup plus riche des données mises en ligne.

A une diffusion de documents par voie électronique, on associe un signalement électronique, lui aussi structuré en différents champs. Dans le cadre d'une recherche documentaire, l'utilisation d'une structure permettra ainsi de mieux cibler a priori les interrogations faites sur les corpus de documents.

Imaginons, par exemple, le cas d’une recherche portant sur "Jean Piaget" dans un corpus de documents structurés. Les documents que nous trouverons seront très différents d'une interrogation à l'autre.

Recherche de documents

Requête

Réponse

Auteur = Jean Piaget

Ensemble de l'oeuvre de Piaget

Titre = Jean Piaget

Ensemble des ouvrages écrits sur Piaget

DirRecherche = Jean Piaget

Ensemble des travaux de recherches dirigés par Piaget

Jury = Jean Piaget

Ensemble travaux de recherche validés par un jury auquel participait Piaget

Une fois le document trouvé, la consultation d'un document structuré est elle aussi plus souple et plus riche : la structure du document étant codée dans le document, elle est visible, facilitant ainsi la navigation dans le document grâce à des outils tels que tables des matières arborescentes, listes des tableaux ou des figures, etc.

Image 2-5 : Navigation

Considérons maintenant la présence d'un mot dans un document. Un des atouts du document - logiquement - structuré que nous n’avons pas encore mentionné, est son apport en terme de recherche ; le rôle que joue, dans le document, un élément de texte donné peut en effet être une source d’information très pertinente.

Dans un document non structuré, par une simple recherche, on ne peut que savoir si un mot est présent ou non ; dans un document structuré, on peut connaître avec une précision relativement fine le degré d’importance de chaque occurrence du mot dans le texte.

Imaginons par exemple le cas d’une recherche sur Jean-Jacques Rousseau, la présence de son nom dans un document peut avoir un sens et une valeur très différents selon la nature de son rôle dans le texte : s’agit-il d’une citation de Rousseau ? Son nom apparaît-il dans un titre (auquel cas il est probable qu’une partie au moins du document porte sur son travail) ? etc... Ce type d’information est perçu naturellement lors de la lecture, mais dans le cadre d’une recherche, il permet une localisation plus rapide et efficace des différentes zones d’intérêt dans le document.

Recherche dans un document

Requête

Réponse

Jean Jacques Rousseau in <DocAuteur>

Le document consulté a été écrit par Rousseau

Jean Jacques Rousseau in <DocTitre>

Le titre de l'ouvrage consulté contient le nom Rousseau

Jean Jacques Rousseau in <TitreDiv>

Une partie au moins du document porte sur Rousseau

Jean Jacques Rousseau in <Citation>

Rousseau est cité dans cet ouvrage

Jean Jacques Rousseau in <RefBiblio>

Des ouvrages de Rousseau sont référencés dans la bibliographie de l'ouvrage

Grâce à l'ensemble des outils liés à la structuration logique, le lecteur va donc pouvoir consulter des documents plus pertinents pour sa recherche par :