Le format HTML

Hypertext Markup Language. Ce langage est à la base du Web (World Wide Web) et il permet l'affichage de pages simples ne contenant que du texte et des pages très sophistiquées qui contiennent non seulement du texte, mais des graphiques, des animations , des interactions sophistiquées avec l'utilisateur et aussi des programmes (scripts) qui s'exécutent automatiquement ou à la demande de l'utilisateur.

A l'origine HTML était un langage de description de page simple. Aujourd'hui il s'agit d'un langage riche et standardisé (bien que certains éditeurs de navigateurs aient rajoutés des éléments de leur invention) qui est au coeur d'un univers très riches d'applications et standards qui permettent d'obtenir des pages très sophistiquées, mais ces aspects dépassent largement les objectifs de ce document, qui est de vous présenter ce qui est nécessaire de savoir pour pouvoir utiliser des documents web dans une analyse qualitative.

Voici un petit ex ample HTML. A gauche vous voyez ce qui est affiché, à droite le HTML qui l'a généré.

Ceci est un titre

Un paragraphe tout simple avec un bout de texte en gras et un autre en italique.

Voici une liste:

<h1>Ceci est un titre</h1>



<p>Un paragraphe tout simple avec un bout de texte en < b>gras</b> et un autre en <i>italique</i>.</p>


<p>Voici une liste:</p>

<ul> <li>Rouge <img src="rouge.jpg"></li>[et un petit graphique rouge]
<li>Bleu</li> </ul>

<script>Atlasfooter()</script>

Un fichier HTML comporte donc une série de balises (tags): par exemple la paire <H1> </H1> enferme un titre de niveau 1 ("header 1"). D'ailleurs sa présentation dépend dans ce cas d'un style défini ailleurs (dans une feuille de style CSS (Cascading Style Sheets).

Pour l'analyse textuelle, ce qui est important c'est le texte et non la présentation, bien que pour des questions de lisibilité il serait agréable de pouvoir conserver par exemple le gras et l'italique. Par contre d'autres éléments ne sont pas désirables, par exemple le petit rond rouge n'est pas vraiment nécessaire et encore moins le bas de ce fragment qui correspond à un script (programmation) qui l'insère. En conclusion une conversion d'un fichier HTML vers un document textuel ne doit préserver que le texte et se débarrasser de tout le reste: les balises, mais aussi les balises délimitant des éléments qui ne contiennent pas de texte à analyser.

Liens