Le format PDF
PDF (Portable Document Format) est, à côté du format HTML, le format
le plus courant pour la diffusion de documents sur Internet.
Sur un ordinateur correctement installé l'utilisatrice
s'en aperçoit à peine, sauf si elle/il est très attentif et note l'apparition d'une barre d'outils
supplémentaires, bien que parfois on peut avoir quelques surprises...
Le format PDF a été proposé par Adobe comme langage de description de page,
pour pouvoir diffuser électroniquement des documents destinés, du moins à l'origine, principalement à l'impression ("papier électronique").
L'objectif de PDF est de remédier à plusieurs défauts d'autres moyens de diffusion:
- Produire un document qui s'affiche et s'imprime à l'identique dans n'importe quel environnement
informatique, contrairement à la présentation d'un document HTML qui dépend de la taille de l'écran, du navigateur et des
préférences définies par l'utilisateur.
- Produire un document qui se lit aussi bien sur un écran et sur papier, donc de disposer
d'un document imprimable correspondant à la présentation et mise en page du document
tel qu'il a été créé par son auteur.
- Assurer l'authenticité d'un document et de contrôler l'accès
au documents. Ce n'est pas
ce volet qui est primordial sur le Web du fait qu'il s'agit
d'une diffusion aussi large que
possible, mais néanmoins il est possible que
vous tombiez sur un document particulier qui
- Vous demande un mot de passe pour le lire.
- Vous dit que vizs ne pouvez pas l'imprimer (l'option d'impression).
- Vous emp^che de faire un "Couper" d'une sélection, ou vous pouvez le faire, mais
quand vous collez le texte, c'est du charabia...
Tout cela veut dire que son auteur a voulu protéger le document en interdisant certaines action en les rendant inaccessible au lecteur.
Acrobat
Quand on parle d'Acrobat il faut également être au clair que c'est
en réalité une suite de logiciels centrée sur la diffusion et la
création de fichiers PDF, en particulier il convient de distinguer:
- Acrobat Reader: un logiciel gratuit qui permet de lire et d'imprimer,
si l'auteur l'a permis, des documents en PDF.
- Acrobat: un logiciel payant qui outre les fonctionnalités du Reader
permet d'effectuer
toute une série d'opérations supplémentaires: indexation de
documents, gestion des
documents (ajouter, supprimer des pages etc), certaines fonctions
d'édition (on peut faire
de petites retouches dans le texte). Il est important de comprendre
qu'Acrobat
n'est pas un logiciel
d'édition/traitement de textes, mais un logiciel de production de
documents. Dans l'optique de l'analyse textuelle, il convient
de mentionner qu'Acrobat peut exporter du texte vers RTF ou texte simple.
- Acrobat Distiller: C'est l'outil principal pour la création
de fichiers PDF qui fonctionne
comme intermédiaire entre les logiciels de PAO/traitement de textes
qui eux produisent un fichier Postscript (un autre format standard
défini par la maison Adobe). Distiller est
également payant, mais il y a une solution gratuite
qui est suffisante pour la plupart
des usages. Si votre logiciel favori n'en dispose pas d'origine d'un
filtre de création de fichiers PDF, Adobe fournit un bout de
logiciel qui vous permet de produire directement un fichier Acrobat.
Il s'agit en réalité d'une imprimante simulée (gestionnaire d'imprimante).
Dans certains
logiciels, surtout plus anciens, il faut explicitement
imprimer sur l'imprimante PDF sur
d'autres vous avez un bouton/menu spécial pour le faire...
Texte ou graphique?
Tout ce qui apparaît comme texte, n'est pas forcément un texte
dans le sens informatique du terme,
à savoir des caractères individuels manipulables.
Si le fichier PDF a été produit à partir d'un
traitement de textes, le résultat sera certainement du texte
editable, par contre si le document
à été produit avec un scanner cela ne l'est souvent pas;
ça veut dire que ce qui apparaît comme
une page de texte est un réalité un page graphique,
par conséquent toutes les opérations de type
textuel (recherche, sélection...) ne font aucun sens,
la seule chose que vous pouvez faire c'est
de couper/coller une partie du graphique en la sélectionnant, le résultat, par exemple dans Word sera l'insertion d'un graphique.
Beaucoup de textes anciens qui ont trouvés leur chemin sur
l'internet sont souvent sous forme graphique, donc une analyse de leurs contenus à l'aide de logiciels d'analyse textuelles ne pourra pas se faire sans
un effort considérable (reconnaissance des caractères, avec souvent correction manuelle du résultat!).
Illustration
Si vous voulez voir comment ces différents éléments se présentent, voici quelques exemples (première page de la réponse de D. Gallin à C. Blocher.
- Fichier PDF,
tel que vous le trouverez sur le site de Domaine Public.
Vous pouvez l'imprimer et sélectionner du texte et le couper
pour le coller dans un autre document.
- Fichier PDF, le même,
mais sans droit à l'impression ni à la
sélection... vous ne pouvez que le lire!
- Fichier PDF, la même page,
mais elle a été obtenu en numérisant la première page du document papier.
Elle n'est pas protégée, mais elle est purement "graphique" en ne
contient aucun texte que vous pouvez chercher, ni sélectionner....
PDF et Atlas
Le format PDF est un des formats textuels que Atlas peut analyser directement sans conversion. (Depuis la version 6 du logiciel)
Extraction de textes: Ce qu'il faut savoir
Si vous souhaitez pouvoir éditer un document PDF ou encore si vous souhaitez pouvoir modifier la présentation de la page
(par exemple colonnes multiples, documents très larges (difficiles à lire sans constamment faire défiler le document dans la fenêtre Atlas) ou tout
autre raison, il peut être
préférable de convertir les documents en format RTF ou texte simple.
Si vous souhaitez extraire le texte d'un document vous disposez de toute une série d'outils et de services
. Il est alors important de savoir que:
- PDF étant un langage de description de pages, un fichier PDF est produit
à partir de documents crées
dans des logiciels de traitement de textes et est donc un
résultat publié, l'équivalent électronique
du papier dans le monde traditionnel.
Bien que Acrobat (version payante) ou d'autres logiciels de création de fichiers PDF ont certaines possibilités d'édition, il ne sont en général pas
capables d'en modifier fondamentalement la présentation (par exemple pour convertir un document en plusieurs colonnes en document à une colonne.
Pour pouvoir modifier le texte contenu dans un document PDF il faut
l'extraire.
- L'extraction de textes est seulement possible, si
- L'auteur du texte l'a permis
- Si c'est réellement du texte! (et pas seulement une image numérisée d'un texte)
Autres outils
Etant donné l'importance du format PDF, toute une industrie s'est développée pour créer, éditer et lire des documents
PDF, donc vous trouvez une large gamme de produits concurrents à Acrobat sur le marché.
A côté des produit commerciaux vous trouverez en particulier Ghostscript (open source), un logiciel
qui permet de créer et de visualiser des fichiers
Postscript et PDF. (C'est l'outil principal qu'utilisent les utilisateurs de Teχ/Lateχ pour créer des fichiers PDF...
Et vous trouverez toute une série d'outils de conversion de/à PDF, certains seulement dans le monde
Linux/Unix....