Codes internes

Pour qu'un ordinateur puisse stocker des chaînes de caractères, il utilise un code conventionnel. Vous voyez ici la lettre "A" du fait que le navigateur a trouvé une séquence de bits ("101001" en représentation binaire pour être précis, 41 en valeur décimale) qu'il interprète comme la lettre "A" majuscule; s'il l'avait interprété comme nombre vous verrez un "41" à la place! (Le code utilisé correspond au code ANSI ("a" minuscule correspondrait à la valeur 97). Notez que les logiciels se "comprennent" parce qu'ils utilisent le même code, car dans un autre code, 41 pourrait être interprété différemment.

Il arrive, surtout avec des caractères accentués de voir apparaître des chose du genre: "… bient“t, mon gar‡on" ("à bientôt, mon garçon"). Ceci vient du fait que le code utilisé pour représenter ces caractères par le logiciel d'origine n'est pas tout à fait le même. C'est en effet un exemple tout à fait réaliste, car la chaîne a été créé avec un logiciel sous MS-DOS qui utilise le code ASCII, tandis que Windows utilise un autre codage, qui est différent pour les caractères accentués et pas mal de symboles spéciaux, mais pas pour le caractères usuels ... en langue anglaise. (ASCII = American Standard Code for Information Interchange). Au début de l'informatique chaque constructeur informatique utilisait son propre code, ce qui, à une époque où les ordinateurs ne communiquaient pas entre eux, n'était pas vraiment grave, mais très vite un certains nombre de standards ont été définis (ASCII, EBCDIC [IBM] etc), d'abord que pour les majuscules, plus tard aussi pour les minuscules. Le code ASCII utilisait initialement 7 bits, ce qui permet un codage de 128 caractères différents; plus tard on a définit une extension à 8 bits ce qui permet d'accommoder le double (256); les premiers 128 caractères étaient les mêmes, mais dans les 128 suivants on mettait des variantes (Europe occidentale: accents, umlauts et quelques caractères scandinaves; le polonais utilise d'autres caractères, comme d'ailleurs le grecque et le russe), sans parler de petites variantes entre constructeurs (notamment Mac et PC).

Microsoft Windows utilisait jusqu'à récemment exclusivement le code ANSI, un code à 8 bit (256 caractères) avec des variantes régionales. De nouveau, les premiers 128 caractères sont identiques au code ASCII, mais le codage des 128 derniers est différent. Pratiquement, aujourd'hui ceci ne pose guère problème, sauf avec des documents plus anciens Si, ce qui est possible, vous lisez un ancien fichier de Word sous DOS, Word va automatiquement traduire les codes. Par contre, si vous introduisez un fichier texte il vous faut choisir le format approprié. désignations peuvent varier; beaucoup de produits Windows appellent ces fichiers "anciens" du texte MS-DOS, parfois aussi Texte ASCII.

Le code ANSI pose pas mal de problèmes dans un monde globalisé, car pour accommoder les lettres cyrilliques, grecques, géorgiennes.... il faut définir plusieurs variantes, sans parler de l'arabe qui - comparé au chinois par exemple - pose quand même moins de problèmes.

Aujourd'hui la plupart des logiciels modernes utilisent le code UNICODE qui lui est capable d'accommoder toutes les écritures connues sur notre terre dans un même système de codage. [Détails ici]