tuteurs.ens.fr/theorie/encodages.tml

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html
  PUBLIC "-//ENS/Tuteurs//DTD TML 1//EN"
  "tuteurs://DTD/tml.dtd">
<html>
<head>
<title>Encodages</title>
</head>
<body>

<h1>L'enfer des langues</h1>

<div class="resume">
<p>
Dans cette page, nous allons voir quels problèmes se posent quand on veut
taper différentes langues avec un ordinateur, et comment on s'y prend pour
les résoudre de manière plus ou moins propre.
</p>
</div>

<h2>L'énoncé du problème</h2>

<h3>Caractères</h3>

<p>
Un texte dans une langue quelconque peut se décomposer en une suite de
<em>caractères</em>. La notion n'est pas parfaitement définie, mais peu
importe en fait, en général il n'y a pas de problème. En français, les
caractères sont les lettres, les chiffres, la ponctuation, les espaces. Le
O-E-dans-l'O est un caractère à part entière, parce qu'il a une existence
propre dans l'orthographe de la langue. De même, les majuscules et le
minuscules sont des caractères distincts. En revanche, le gras et l'italique
ne constituent pas une distinction sur les caractères.
</p>

<p>
Lorsqu'on s'adresse à un ordinateur pour taper du texte, ce sont
essentiellement des caractères qu'on lui communique. Selon le logiciel
employé, il pourra se glisser ou pas dans cette suite de caractères des
informations de mise en page. Dans le cas le plus simple, la seule mise en
forme qui intervient est le retour à la ligne. Dans ce cas particulier, il y
a un « caractère » spécial retour à la ligne. Ce caractère existe parce
qu'il est très utile pour les fichiers qui ne peuvent contenir que des
caractères, et aucune autre mise en forme. Il n'existe en général pas de
caractère dédié à d'autres mises en forme, comme le gras et l'italique, tout
dépend du logiciel utilisé.
</p>

<p>
En bref, un texte est une suite de caractères.
</p>

<h3>Fichiers, octets</h3>

<p>
Depuis le temps, vous savez probablement déjà qu'un fichier sur un
ordinateur n'est ni plus ni moins qu'une suite d'<em>octets</em>, c'est à
dire en quelque sorte des nombres entre 0 et 255. À vrai dire, on pourrait
aussi bien les penser comme 256 parfums possibles pour des glaces, ou 256
couleurs possibles : il y a 256 valeurs possibles, on peut les voir comme
des nombres si on veut (et dans ce cas il y a une manière naturelle de le
faire), ou comme autre chose si on préfère.
</p>

<p>
Toute la difficulté réside dans le fait de représenter une suite de
caractères par une suite d'octets. Nous allons voir que ce n'est pas si
simple.
</p>

<h2>Les premières solutions</h2>

<h3>Les informaticiens sont joueurs</h3>

<p>
Une des occupations favorites des informaticiens, c'est de mettre dans leurs
programmes des limites arbitraires qui vont plus tard poser des problèmes
sans fin. Une telle imprévoyance a défrayé la chronique il y a peu : le
fameux bug de l'an 2000 (sauf que ça a fait un flop monumental, les
journalistes n'ayant pas compris que 2000 n'est pas du tout un nombre rond
pour un ordinateur). Le problème de la représentation de textes est
probablement le domaine où elle se fait le plus cruellement sentir, et le
problème n'est pas encore près d'être complètement résolu.
</p>

<p>
Tout commence par une constatation très simple : les premiers
informaticiens parlaient anglais. Et l'anglais s'écrit avec pas grand
chose : deux fois 26 lettres, 10 chiffres, une trentaine de signes de
ponctuation, de signes mathématiques, sans oublier le symbole dollar : avec
95 caractères au total on peut se débrouiller.
</p>

<p>
À l'époque dont je parle, on ne pouvait utiliser que la moitié des octets,
soit 128 valeurs. On en a pris 33 comme caractères de « contrôle » (dont
le retour à la ligne, plus des trucs plus exotiques, comme faire sonner la
machine, ou des codes bizarres pour déplacer le curseur), plus les 95 dont
on avait besoin pour écrire l'anglais. On a numéroté tout ça, ça a donné le
code <abbr lang="en_US" title="American Standard Code for Information Interchange">ASCII</abbr> :
une correspondance entre les octets de 0 à 127 avec des codes de contrôle et
les 95 caractères utiles pour taper de l'anglais.
</p>

<p>
La solution était donc toute simple : un octet par caractère, un caractère
par octet, pourquoi se fatiguer ?
</p>

<h3>Les Européens veulent jouer aussi</h3>

<p>
Bien sûr, au bout d'un moment, il y a des gens qui ont eu envie de pouvoir
taper du français ou de l'allemand sur leur ordinateur. Heureusement, entre
temps, il était devenu possible d'utiliser les valeurs laissées de côté par
l'ASCII. Dans cette place, il a été possible de caser les caractères
accentués et divers autres symboles utilisés par les langues d'europe de
l'ouest.
</p>

<p>
Dans le même temps, les informaticiens russes ont profité de ces 128
valeurs pour y caser l'alphabet cyrillique. Les Grecs y ont aussi mis leur
propre alphabet.
</p>

<p>
Dans ces 128 valeurs, il n'y a hélas pas la place de caser les caractères
pour les langues occidentales <em>et</em> l'alphabet cyrillique <em>et</em>
l'alphabet grec <em>et</em> l'alphabet hébreu. Mais ce n'est pas grave. En
France, on tape du français, pas du grec ; en Grèce on tape du grec, pas du
Cyrillique ; en Russie on tape du cyrillique, pas du français. Les
ordinateurs étaient configurés pour que le clavier envoie certains codes,
que l'écran affiche certains caractères, et que tout marche bien comme ça.
Bien sûr ça ne marche plus du tout si on franchit la frontière, ou si on va
chez le voisin qui a un ordinateur d'une marque différente, mais ce n'est
pas grave.
</p>

<h3>Les encodages</h3>

<p>
Non, bien sûr, tout ceci ne pouvait pas durer. Pour le problème de pouvoir
taper plusieurs langues sur un même ordinateur, la solution est simple : il
suffit d'étiqueter chaque fichier, celui-ci est en français, celui-ci en
grec.
</p>

<p>
Mais il fallait aussi que les ordinateurs puissent communiquer entre eux
même en étant de marques différentes. Donc au lieu que chaque fabricant
invente sa propre correspondance entre octets et caractères, des organismes
de standardisation s'y sont mis. Ça a donné des tables de correspondance,
comme l'ISO-8859-1, qui propose un jeu de caractères pour les langues
occidentales, l'ISO-8859-5 qui offre du cyrillique, l'ISO-8859-7, qui
propose du grec, etc.
</p>

<p>
Tous les problèmes n'étaient pas résolus, mais au moins il suffit d'indiquer
au début d'un texte le nom de l'encodage qu'il utilise, et pour peu qu'on
ait les bonnes polices de caractères, on peut le lire sans problème.
</p>

<h3>Et les langues orientales dans tout ça ?</h3>

<p>
Bon, tout ça c'est très bien, mais même en tassant très fort, on n'arrivera
pas à faire rentrer les 1945 idéogrammes du japonais officiel dans un octet
(sans compter ceux qui servent pour les noms propres, ni l'alphabet
syllabique). Ni les 11&thsp;172 syllables coréennes, ni les dizaines de
milliers d'idéogrammes chinois qu'on arrive à recenser.
</p>

<p>
Les informaticiens orientaux ont donc dû inventer leurs propres méthodes,
des codages qui abandonnaient la correspondance un octet = un caractère.
Bien sûr, si vous croyez que les informaticiens japonais ont fait un code
qui permet de faire aussi du chinois, ou le contraire, vous êtes un
indécrotable idéaliste qui n'a rien compris à l'informatique.
</p>

<h3>État des lieux</h3>

<p>
Tout ceci nous amène presque à l'état actuel de l'informatique :
</p>

<ul>
<li>Pour les langues « simples », un codage standard avec un octet par
  caractère est utilisé.</li>
<li>Les textes sont éventuellement étiquetés par l'encodage qu'ils
  utilisent.</li>
<li>Les logiciels occidentaux sont profondément liés à la correspondance un
  octet = un caractère.</li>
<li>Les logiciels orientaux utilisent de manière très figée un système
  spécifique à une langue.</li>
</ul>

<p>
Ce qui manque à tout ça, c'est la possibilité qu'un même texte (et dans
certains cas un même logiciel) contienne simultanément plusieurs langues
couvertes par des encodages différents. Militons pour le droit des
universitaires russes de faire des thèses sur les traductions de la Bible de
l'hébreu au grec !
</p>

<h2><a name="unicode">Unicode</a></h2>

<h3>Le but du projet</h3>

<p>
Pour résoudre <em>durablement</em> tous ces problèmes de langues, il s'est
formé un consortium, qui regroupe de grands noms de l'informatique et de la
linguistique : <a href="http://www.unicode.org/">le consortium Unicode</a>. 
Sa tâche : recenser et numéroter
tous les caractères existant dans toutes les langues du monde. Au moment où
j'écris ces lignes, le standard publié comporte presque 60&thsp;000
caractères.
</p>

<p>
Avec Unicode, un texte dans n'importe quelle langue, ou n'importe
quelle<em>s</em> langue<em>s</em> peut se représenter comme une suite de
nombres. Quelle simplification !
</p>

<h3>Les nouveaux codages</h3>

<p>
Il est possible d'utiliser directement Unicode pour stocker les textes
informatiques, en utilisant plusieurs octets pour codes les caractères : on
appelle ce code UCS-4 parce qu'il utilise 4 octets par caractères, le
consortium Unicode ayant prévu que deux milliards de caractères ne seraient
pas atteints dans l'immédiat.
</p>

<p>
Il existe cependant un autre code largement utilisé avec Unicode. Il
s'appelle UTF-8. Il est un peu plus complexe, il utilise un nombre variable
d'octets par caractères, mais présente certains avantages : il est
compatible avec l'ASCII, de sorte que les parties écrites avec l'alphabet
latin de base d'un texte codé en UTF-8 seront à peu près lisibles même avec
un logiciel qui ne comprend pas ce codage.
</p>

<h3>Comment marchent les bons logiciels</h3>

<p>
Un bon logiciel est maintenant un logiciel qui permet de travailler avec
Unicode. Enfin, là, je parle des logiciels qui ont à gérer du texte, hein,
un Démineur peut très bien continuer à déminer sans se soucier d'Unicode.
Un bon logiciel, disais-je, va travailler autant que possible en Unicode. En
interne, ses données seront probablement codées uniquement en UCS-4 ou UTF-8
selon ce qu'il en fait, mais ça n'a pas besoin d'être visible. L'important
est qu'il saura jongler entre les différents encodages pour communiquer avec
d'autres composants.
</p>

<p>
Prenons l'exemple d'un logiciel de courrier électronique. Les courrier reçus
comportent une indication de leur codage : hop, le logiciel se débrouille
pour en faire de l'Unicode. Il les affiche en convertissant dans le bon
codage pour le système graphique ou le terminal dans lequel il tourne. Quand
on veut répondre, il prépare la citation dans le bon encodage pour
l'éditeur, puis récupère le texte ainsi édité et le reconvertit. À l'envoi,
il va choisir le meilleur encodage, en tenant compte des nécessités (les
caractères utilisés dans le courrier), et du fait que le destinataire n'a
pas forcément un logiciel qui comprend unicode (et donc il vaut mieux
utiliser un encodage plus ancien et simple si possible).
</p>

<p>
Tout ceci est un peu compliqué, parce que le logiciel est à l'interface
entre le réseau, l'utilisateur et l'éditeur de texte, qui peuvent chacun
utiliser un encodage différent. À terme, ce sera probablement de l'UTF-8 de
tous les côtés, et ce sera plus simple.
</p>

<h2>En pratique</h2>

<ul>
<li><a href="&url.tuteurs;unix/editeurs/unicode.html">Taper de l'Unicode
  avec Vim ou Emacs (ou dans un terminal)</a></li>
<li><a href="&url.tuteurs;internet/courrier/international.html">Gérer son
  courrier électronique en Unicode avec Mutt</a></li>
<li><a href="&url.tuteurs;logiciels/latex/langues.html">Taper du LaTeX en
  Unicode</a></li>
</ul>

<div class="metainformation">
Auteur : Nicolas George. <date value="from git" />
</div>

</body>
</html>
-												Passage en UTF-8, 2 : lignes <?xml encoding?>

Last-change: ignore this commit

											
										
										
											2009-09-20 12:34:28 +02:00
+								<?xml version="1.0" encoding="UTF-8"?>
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								<!DOCTYPE html
 								  PUBLIC "-//ENS/Tuteurs//DTD TML 1//EN"
 								  "tuteurs://DTD/tml.dtd">
 								<html>
 								<head>
 								<title>Encodages</title>
 								</head>
 								<body>
 								<h1>L'enfer des langues</h1>
 								<div class="resume">
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								Dans cette page, nous allons voir quels problèmes se posent quand on veut
 								taper différentes langues avec un ordinateur, et comment on s'y prend pour
 								les résoudre de manière plus ou moins propre.
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								</p>
 								</div>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								<h2>L'énoncé du problème</h2>
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								<h3>Caractères</h3>
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								Un texte dans une langue quelconque peut se décomposer en une suite de
 								<em>caractères</em>. La notion n'est pas parfaitement définie, mais peu
 								importe en fait, en général il n'y a pas de problème. En français, les
 								caractères sont les lettres, les chiffres, la ponctuation, les espaces. Le
 								O-E-dans-l'O est un caractère à part entière, parce qu'il a une existence
 								propre dans l'orthographe de la langue. De même, les majuscules et le
 								minuscules sont des caractères distincts. En revanche, le gras et l'italique
 								ne constituent pas une distinction sur les caractères.
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								</p>
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								Lorsqu'on s'adresse à un ordinateur pour taper du texte, ce sont
 								essentiellement des caractères qu'on lui communique. Selon le logiciel
 								employé, il pourra se glisser ou pas dans cette suite de caractères des
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								informations de mise en page. Dans le cas le plus simple, la seule mise en
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								forme qui intervient est le retour à la ligne. Dans ce cas particulier, il y
 								a un « caractère » spécial retour à la ligne. Ce caractère existe parce
 								qu'il est très utile pour les fichiers qui ne peuvent contenir que des
 								caractères, et aucune autre mise en forme. Il n'existe en général pas de
 								caractère dédié à d'autres mises en forme, comme le gras et l'italique, tout
 								dépend du logiciel utilisé.
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								</p>
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								En bref, un texte est une suite de caractères.
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								</p>
 								<h3>Fichiers, octets</h3>
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								Depuis le temps, vous savez probablement déjà qu'un fichier sur un
 								ordinateur n'est ni plus ni moins qu'une suite d'<em>octets</em>, c'est à
 								dire en quelque sorte des nombres entre 0 et 255. À vrai dire, on pourrait
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								aussi bien les penser comme 256 parfums possibles pour des glaces, ou 256
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								couleurs possibles : il y a 256 valeurs possibles, on peut les voir comme
 								des nombres si on veut (et dans ce cas il y a une manière naturelle de le
 								faire), ou comme autre chose si on préfère.
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								</p>
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								Toute la difficulté réside dans le fait de représenter une suite de
 								caractères par une suite d'octets. Nous allons voir que ce n'est pas si
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								simple.
 								</p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								<h2>Les premières solutions</h2>
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
 								<h3>Les informaticiens sont joueurs</h3>
 								<p>
 								Une des occupations favorites des informaticiens, c'est de mettre dans leurs
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								programmes des limites arbitraires qui vont plus tard poser des problèmes
 								sans fin. Une telle imprévoyance a défrayé la chronique il y a peu : le
 								fameux bug de l'an 2000 (sauf que ça a fait un flop monumental, les
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								journalistes n'ayant pas compris que 2000 n'est pas du tout un nombre rond
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								pour un ordinateur). Le problème de la représentation de textes est
 								probablement le domaine où elle se fait le plus cruellement sentir, et le
 								problème n'est pas encore près d'être complètement résolu.
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								</p>
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								Tout commence par une constatation très simple : les premiers
 								informaticiens parlaient anglais. Et l'anglais s'écrit avec pas grand
 								chose : deux fois 26 lettres, 10 chiffres, une trentaine de signes de
 								ponctuation, de signes mathématiques, sans oublier le symbole dollar : avec
 caractères au total on peut se débrouiller.
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								</p>
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								À l'époque dont je parle, on ne pouvait utiliser que la moitié des octets,
 								soit 128 valeurs. On en a pris 33 comme caractères de « contrôle » (dont
 								le retour à la ligne, plus des trucs plus exotiques, comme faire sonner la
 								machine, ou des codes bizarres pour déplacer le curseur), plus les 95 dont
 								on avait besoin pour écrire l'anglais. On a numéroté tout ça, ça a donné le
 								code <abbr lang="en_US" title="American Standard Code for Information Interchange">ASCII</abbr> :
 								une correspondance entre les octets de 0 à 127 avec des codes de contrôle et
 								les 95 caractères utiles pour taper de l'anglais.
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								</p>
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								La solution était donc toute simple : un octet par caractère, un caractère
 								par octet, pourquoi se fatiguer ?
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								</p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								<h3>Les Européens veulent jouer aussi</h3>
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								Bien sûr, au bout d'un moment, il y a des gens qui ont eu envie de pouvoir
 								taper du français ou de l'allemand sur leur ordinateur. Heureusement, entre
 								temps, il était devenu possible d'utiliser les valeurs laissées de côté par
 								l'ASCII. Dans cette place, il a été possible de caser les caractères
 								accentués et divers autres symboles utilisés par les langues d'europe de
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								l'ouest.
 								</p>
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								Dans le même temps, les informaticiens russes ont profité de ces 128
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								valeurs pour y caser l'alphabet cyrillique. Les Grecs y ont aussi mis leur
 								propre alphabet.
 								</p>
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								Dans ces 128 valeurs, il n'y a hélas pas la place de caser les caractères
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								pour les langues occidentales <em>et</em> l'alphabet cyrillique <em>et</em>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								l'alphabet grec <em>et</em> l'alphabet hébreu. Mais ce n'est pas grave. En
 								France, on tape du français, pas du grec ; en Grèce on tape du grec, pas du
 								Cyrillique ; en Russie on tape du cyrillique, pas du français. Les
 								ordinateurs étaient configurés pour que le clavier envoie certains codes,
 								que l'écran affiche certains caractères, et que tout marche bien comme ça.
 								Bien sûr ça ne marche plus du tout si on franchit la frontière, ou si on va
 								chez le voisin qui a un ordinateur d'une marque différente, mais ce n'est
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								pas grave.
 								</p>
 								<h3>Les encodages</h3>
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								Non, bien sûr, tout ceci ne pouvait pas durer. Pour le problème de pouvoir
 								taper plusieurs langues sur un même ordinateur, la solution est simple : il
 								suffit d'étiqueter chaque fichier, celui-ci est en français, celui-ci en
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								grec.
 								</p>
 								<p>
 								Mais il fallait aussi que les ordinateurs puissent communiquer entre eux
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								même en étant de marques différentes. Donc au lieu que chaque fabricant
 								invente sa propre correspondance entre octets et caractères, des organismes
 								de standardisation s'y sont mis. Ça a donné des tables de correspondance,
 								comme l'ISO-8859-1, qui propose un jeu de caractères pour les langues
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								occidentales, l'ISO-8859-5 qui offre du cyrillique, l'ISO-8859-7, qui
 								propose du grec, etc.
 								</p>
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								Tous les problèmes n'étaient pas résolus, mais au moins il suffit d'indiquer
 								au début d'un texte le nom de l'encodage qu'il utilise, et pour peu qu'on
 								ait les bonnes polices de caractères, on peut le lire sans problème.
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								</p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								<h3>Et les langues orientales dans tout ça ?</h3>
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								Bon, tout ça c'est très bien, mais même en tassant très fort, on n'arrivera
 								pas à faire rentrer les 1945 idéogrammes du japonais officiel dans un octet
-												Petite précision linguistique.

											
										
										
											2004-02-23 13:23:30 +01:00
+								(sans compter ceux qui servent pour les noms propres, ni l'alphabet
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								syllabique). Ni les 11&thsp;172 syllables coréennes, ni les dizaines de
 								milliers d'idéogrammes chinois qu'on arrive à recenser.
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								</p>
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								Les informaticiens orientaux ont donc dû inventer leurs propres méthodes,
 								des codages qui abandonnaient la correspondance un octet = un caractère.
 								Bien sûr, si vous croyez que les informaticiens japonais ont fait un code
 								qui permet de faire aussi du chinois, ou le contraire, vous êtes un
 								indécrotable idéaliste qui n'a rien compris à l'informatique.
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								</p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								<h3>État des lieux</h3>
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								Tout ceci nous amène presque à l'état actuel de l'informatique :
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								</p>
 								<ul>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								<li>Pour les langues « simples », un codage standard avec un octet par
 								  caractère est utilisé.</li>
 								<li>Les textes sont éventuellement étiquetés par l'encodage qu'ils
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								  utilisent.</li>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								<li>Les logiciels occidentaux sont profondément liés à la correspondance un
 								  octet = un caractère.</li>
 								<li>Les logiciels orientaux utilisent de manière très figée un système
 								  spécifique à une langue.</li>
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								</ul>
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								Ce qui manque à tout ça, c'est la possibilité qu'un même texte (et dans
 								certains cas un même logiciel) contienne simultanément plusieurs langues
 								couvertes par des encodages différents. Militons pour le droit des
 								universitaires russes de faire des thèses sur les traductions de la Bible de
 								l'hébreu au grec !
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								</p>
-												Ajout de veritables noms pour les ancres vers lesquelles on met des liens
internes.

											
										
										
											2004-08-24 04:59:45 +02:00
+								<h2><a name="unicode">Unicode</a></h2>
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
 								<h3>Le but du projet</h3>
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								Pour résoudre <em>durablement</em> tous ces problèmes de langues, il s'est
 								formé un consortium, qui regroupe de grands noms de l'informatique et de la
 								linguistique : <a href="http://www.unicode.org/">le consortium Unicode</a>.
 								Sa tâche : recenser et numéroter
 								tous les caractères existant dans toutes les langues du monde. Au moment où
 								j'écris ces lignes, le standard publié comporte presque 60&thsp;000
 								caractères.
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								</p>
 								<p>
 								Avec Unicode, un texte dans n'importe quelle langue, ou n'importe
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								quelle<em>s</em> langue<em>s</em> peut se représenter comme une suite de
 								nombres. Quelle simplification !
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								</p>
 								<h3>Les nouveaux codages</h3>
 								<p>
-												orth

											
										
										
											2007-10-23 11:28:54 +02:00
+								Il est possible d'utiliser directement Unicode pour stocker les textes
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								informatiques, en utilisant plusieurs octets pour codes les caractères : on
 								appelle ce code UCS-4 parce qu'il utilise 4 octets par caractères, le
 								consortium Unicode ayant prévu que deux milliards de caractères ne seraient
 								pas atteints dans l'immédiat.
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								</p>
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								Il existe cependant un autre code largement utilisé avec Unicode. Il
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								s'appelle UTF-8. Il est un peu plus complexe, il utilise un nombre variable
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								d'octets par caractères, mais présente certains avantages : il est
 								compatible avec l'ASCII, de sorte que les parties écrites avec l'alphabet
 								latin de base d'un texte codé en UTF-8 seront à peu près lisibles même avec
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								un logiciel qui ne comprend pas ce codage.
 								</p>
 								<h3>Comment marchent les bons logiciels</h3>
 								<p>
 								Un bon logiciel est maintenant un logiciel qui permet de travailler avec
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								Unicode. Enfin, là, je parle des logiciels qui ont à gérer du texte, hein,
 								un Démineur peut très bien continuer à déminer sans se soucier d'Unicode.
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								Un bon logiciel, disais-je, va travailler autant que possible en Unicode. En
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								interne, ses données seront probablement codées uniquement en UCS-4 ou UTF-8
 								selon ce qu'il en fait, mais ça n'a pas besoin d'être visible. L'important
 								est qu'il saura jongler entre les différents encodages pour communiquer avec
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								d'autres composants.
 								</p>
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								Prenons l'exemple d'un logiciel de courrier électronique. Les courrier reçus
 								comportent une indication de leur codage : hop, le logiciel se débrouille
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								pour en faire de l'Unicode. Il les affiche en convertissant dans le bon
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								codage pour le système graphique ou le terminal dans lequel il tourne. Quand
 								on veut répondre, il prépare la citation dans le bon encodage pour
 								l'éditeur, puis récupère le texte ainsi édité et le reconvertit. À l'envoi,
 								il va choisir le meilleur encodage, en tenant compte des nécessités (les
 								caractères utilisés dans le courrier), et du fait que le destinataire n'a
 								pas forcément un logiciel qui comprend unicode (et donc il vaut mieux
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								utiliser un encodage plus ancien et simple si possible).
 								</p>
 								<p>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								Tout ceci est un peu compliqué, parce que le logiciel est à l'interface
 								entre le réseau, l'utilisateur et l'éditeur de texte, qui peuvent chacun
 								utiliser un encodage différent. À terme, ce sera probablement de l'UTF-8 de
 								tous les côtés, et ce sera plus simple.
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								</p>
 								<h2>En pratique</h2>
 								<ul>
-												Ajout des liens vers les autres pages.

											
										
										
											2003-10-07 18:32:49 +02:00
+								<li><a href="&url.tuteurs;unix/editeurs/unicode.html">Taper de l'Unicode
 								  avec Vim ou Emacs (ou dans un terminal)</a></li>
-												Passage en UTF-8 des fichiers TML, 1 : recodage

Last-change: ignore this commit

											
										
										
											2009-09-20 12:27:14 +02:00
+								<li><a href="&url.tuteurs;internet/courrier/international.html">Gérer son
 								  courrier électronique en Unicode avec Mutt</a></li>
-												Page sur les langues exotiques en LaTeX.

											
										
										
											2004-04-12 19:58:01 +02:00
+								<li><a href="&url.tuteurs;logiciels/latex/langues.html">Taper du LaTeX en
 								  Unicode</a></li>
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								</ul>
 								<div class="metainformation">
-												Passage à git des « Dernière modif... »

Remplacement de toutes les phrases du style « Dernière modification le
... [par ...] » par <date value="from git" />, qui produit une phrase du
genre à partir de l'historique du dépôt. Le « from git » n'a pas
d'importance, c'est juste parce que la DTD de TML (que je préfère ne pas
changer) exige un attribut value.

Last-change: ignore this commit

											
										
										
											2009-09-27 22:00:55 +02:00
+								Auteur : Nicolas George. <date value="from git" />
-												Ajout d'une page sur les encodages.

											
										
										
											2003-01-10 16:37:24 +01:00
+								</div>
 								</body>
 								</html>