Conversion de pages HTML (Web)
Ce document contient quelques informations concernant l'extraction de textes
de pages HTML (web).
- Si vous ne savez pas exactement ce que c'est un fichier HTML, lisez d'abord ce document.
- De même si ce n'est pas déjà fait lisez ce document
qui vous donne quelques conseils généraux sur la conversion de documents, y compris sur l'usage du presse-papier (clipboard).
Atlas peut accéder directement aux documents HTML et convertissant le texte en RTF (extraction des éléments textuels).
Le résultat est cependant jamais très satisfaisant, surtout avec des pages complexes, par exemple d'un journal en ligne. Même pour
les pages simples il restent toujours des éléments étrangers au texte à analyser.
Comment procéder?
- Produire un fichier local à partir d'une page web
- Accéder la page qui vous intéresse avec un navigateur ("browser") et la sauvegarder
dans un fichier local pour ensuite en extraire le texte.
- Alternativement vous pouvez aussi lire la page avec un logiciel qui accepte les adresses Web (url) comme
noms de fichiers, tels que Microsoft Word qui ouvre une
page Web sans problème (donnez une adresse web à la place du nom de fichier
habituel () (par exemple
http://www.unige.ch/ses/sococ/aqual/welcome.html, la home page de cet enseignement).
- Trouver un logiciel qui permet de l'accéder directement sur Internet pour en
extraire le texte. Il y a un grand nombre de logiciels commerciaux pour
aller chercher/extraire du texte sur Internet (Web extractor, scraper, spiders
etc) qui répondent à des besoins très variés. Pour l'instant je n'ai encore
rien trouvé dans les produits open source, si ce n'est des composantes pour
programmeurs.
- Enlever tout ce qui ne fait pas partie du texte à analyser de ce fichier, en utilisant par exemple MS Word-
- Avec Atlas introduire le fichier résultant dans la Atlas.
Voici ce que vous obtenant en convertissant cette page Web pour Atlas (Sauver la page web dans un fichier, ensuite l'accéder par Atlas).
Ils y a des restes des outils de navigation qu'il faudra éliminer au préalable.
Le début du texte réel que vous voyez sur la copie d'écran pourra évoluer, donc ne vous étonnez pas si cela ne correspond plus....
Cet exemple est encore plus complexe comme je me l'imaginais au départ. J'allais sur le site du Monde prenait un page, la sauvegardais
sur le disque et je l'importais dans Atlas ... et il n'y avait pas la moindre trace d'un texte, le convertisseur d'Atlas était visiblement dépassé par la complexité
de la page.
Après quelques essais infructueux j'ai sauvegardé le document, non sous forme HTML ou page web complète, mais
simplement texte (dans Firefox) et alors j'ai obtenu ce que vous voyez ici.... le texte sur le majordome du pape s'y trouve, mais bien plus bas.
...le texte sur le majordome du pape s'y trouve, mais bien plus bas et pas "propre" non plus...
... j'ai obtenu des résultats un peu meilleurs en lisant la page web avec MS Word pour ensuite
l'exporter vers RTF.
Il y a encore pas mal de choses étranges avant le début du vrai texte... et j'aurais pu profiter du passage dans Word pour éliminer tout cela....
Conversion vers le format texte
- La plupart des navigateurs permettent d'enregistrer ("Sauvegarder sous") un
document sous format texte.
-
HTML vers texte (Université de Loughborough) Liens vers des convertisseurs
Conversion vers le format RTF
- Interet Explorer: Le menu vous donne la possibilité
d'éditer la page Web avec Microsoft Word.
- Html2RTF easy
Un produit gratuit pour convertir des fichiers HTML en RTF. (Pas testé de façon
approfondie).
- Word peut également lire des fichiers HTML, que vous pouvez ensuite sauvegarder
en format RTF ou texte seule.
- Online-Convert service en-ligne qui convertit
de très nombreux formats multimédia et textuels.
Remarques supplémentaires
- Certaines pages très interactives peuvent contenir des éléments programmés avec Flash ou d'autres outils interactifs qui affichent parfois du texte. Ce type de texte
est inaccessible et n peut-être extrait de la manière décrite plus haut. Méfiez vous donc de pages très complexes et vérifiez le résultat.
Voir aussi