Conversion de pages HTML (Web)

Ce document contient quelques informations concernant l'extraction de textes de pages HTML (web).

  1. Si vous ne savez pas exactement ce que c'est un fichier HTML, lisez d'abord ce document.
  2. De même si ce n'est pas déjà fait lisez ce document qui vous donne quelques conseils généraux sur la conversion de documents, y compris sur l'usage du presse-papier (clipboard).

Atlas peut accéder directement aux documents HTML et convertissant le texte en RTF (extraction des éléments textuels). Le résultat est cependant jamais très satisfaisant, surtout avec des pages complexes, par exemple d'un journal en ligne. Même pour les pages simples il restent toujours des éléments étrangers au texte à analyser.

Comment procéder?

  1. Produire un fichier local à partir d'une page web
  2. Enlever tout ce qui ne fait pas partie du texte à analyser de ce fichier, en utilisant par exemple MS Word-
  3. Avec Atlas introduire le fichier résultant dans la Atlas.

Voici ce que vous obtenant en convertissant cette page Web pour Atlas (Sauver la page web dans un fichier, ensuite l'accéder par Atlas).

Ils y a des restes des outils de navigation qu'il faudra éliminer au préalable.

Le début du texte réel que vous voyez sur la copie d'écran pourra évoluer, donc ne vous étonnez pas si cela ne correspond plus....

Cet exemple est encore plus complexe comme je me l'imaginais au départ. J'allais sur le site du Monde prenait un page, la sauvegardais sur le disque et je l'importais dans Atlas ... et il n'y avait pas la moindre trace d'un texte, le convertisseur d'Atlas était visiblement dépassé par la complexité de la page.

Après quelques essais infructueux j'ai sauvegardé le document, non sous forme HTML ou page web complète, mais simplement texte (dans Firefox) et alors j'ai obtenu ce que vous voyez ici.... le texte sur le majordome du pape s'y trouve, mais bien plus bas.

...le texte sur le majordome du pape s'y trouve, mais bien plus bas et pas "propre" non plus...

... j'ai obtenu des résultats un peu meilleurs en lisant la page web avec MS Word pour ensuite l'exporter vers RTF.

Il y a encore pas mal de choses étranges avant le début du vrai texte... et j'aurais pu profiter du passage dans Word pour éliminer tout cela....

Conversion vers le format texte
Conversion vers le format RTF
Remarques supplémentaires
Voir aussi