Prise en compte des remarques de Gro-Tsen et de Baptiste
This commit is contained in:
parent
beed5f8c38
commit
2c33045e91
1 changed files with 40 additions and 31 deletions
71
faq/utf8.tml
71
faq/utf8.tml
|
@ -8,7 +8,7 @@
|
||||||
</head>
|
</head>
|
||||||
<body>
|
<body>
|
||||||
|
|
||||||
<h1>Foire Aux Questions des Tuteurs : Unicode, UTF-8</h1>
|
<h1>Foire Aux Questions des Tuteurs : Unicode, UTF-8</h1>
|
||||||
|
|
||||||
<p>Cette Foire Aux Questions (<a
|
<p>Cette Foire Aux Questions (<a
|
||||||
href="&url.tuteurs;jargon.html#FAQ">FAQ</a>) rassemble entre autres des
|
href="&url.tuteurs;jargon.html#FAQ">FAQ</a>) rassemble entre autres des
|
||||||
|
@ -20,7 +20,7 @@ public (et aussi sous Windows).</p>
|
||||||
|
|
||||||
<h2>Généralités et théorie</h2>
|
<h2>Généralités et théorie</h2>
|
||||||
|
|
||||||
<h3><a name="unicode">Qu'est-ce que le Standard Unicode ?</a></h3>
|
<h3><a name="unicode">Qu'est-ce que le Standard Unicode ?</a></h3>
|
||||||
|
|
||||||
<p>Le <a href="http://www.unicode.org/">Standard Unicode</a> est produit
|
<p>Le <a href="http://www.unicode.org/">Standard Unicode</a> est produit
|
||||||
par une organisation à but non lucratif (le Consortium Unicode) ayant
|
par une organisation à but non lucratif (le Consortium Unicode) ayant
|
||||||
|
@ -28,32 +28,32 @@ pour objectif d'attribuer un num
|
||||||
humaine. Cette entreprise vise à une certaine universalité. Les alphabets
|
humaine. Cette entreprise vise à une certaine universalité. Les alphabets
|
||||||
de <b>beaucoup</b> de langues sont déjà inscrits dans ce standard. On y trouve
|
de <b>beaucoup</b> de langues sont déjà inscrits dans ce standard. On y trouve
|
||||||
évidemment les alphabets latins, grecs et cyrilliques (avec certaines de
|
évidemment les alphabets latins, grecs et cyrilliques (avec certaines de
|
||||||
leurs variantes, par exemple, un caractère comme « œ » y figure,
|
leurs variantes, par exemple, un caractère comme « œ » y figure,
|
||||||
bien qu'il ne soit pas utilisé dans la plupart des autres langues
|
bien qu'il ne soit pas utilisé dans la plupart des autres langues
|
||||||
européennes utilisant l'alphabet latin). Beaucoup de langues parlées en
|
européennes utilisant l'alphabet latin). Beaucoup de langues parlées en
|
||||||
Asie figurent aussi dans le standard : des dizaines de miliers de
|
Asie figurent aussi dans le standard : des dizaines de miliers de
|
||||||
caractères chinois, japonais ou coréens sont définis. Le standard
|
caractères chinois, japonais ou coréens sont définis. Le standard
|
||||||
contient bien d'autres alphabets, la consultation des tableaux de
|
contient bien d'autres alphabets, la consultation des tableaux de
|
||||||
caractères (dans la version imprimée du standard ou <a
|
caractères (dans la version imprimée du standard ou <a
|
||||||
href="http://www.unicode.org/charts/">sur le site officiel</a>) est une
|
href="http://www.unicode.org/charts/">sur le site officiel</a>) est une
|
||||||
véritable source d'émerveillement... </p>
|
véritable source d'émerveillement... </p>
|
||||||
|
|
||||||
<h3><a name="caractere">Qu'est-ce qu'un caractère Unicode ?</a></h3>
|
<h3><a name="caractere">Qu'est-ce qu'un caractère Unicode ?</a></h3>
|
||||||
|
|
||||||
<p>Un caractère Unicode est un caractère défini dans le Standard Unicode.
|
<p>Un caractère Unicode est un caractère défini dans le Standard Unicode.
|
||||||
On y fait souvent référence par son numéro écrit en hexadécimal précédé
|
On y fait souvent référence par son numéro écrit en hexadécimal précédé
|
||||||
de «U+». Par exemple, la lettre latine « a » correspond à U+0061, la lettre
|
de «U+». Par exemple, la lettre latine « a » correspond à U+0061, la lettre
|
||||||
cyrillique « Ѭ » correspond à U+046C et le "DEVANAGARI OM"
|
cyrillique « Я » correspond à U+042F et le "DEVANAGARI OM"
|
||||||
« ॐ » correspond à U+0950. Certains de ces caractères ne
|
« ॐ » correspond à U+0950. Certains de ces caractères ne
|
||||||
s'affichent peut-être pas correctement sur votre écran, cela dépend de
|
s'affichent peut-être pas correctement sur votre écran, cela dépend de
|
||||||
plusieurs paramètres, nous reviendrons sur ce point dans les questions
|
plusieurs paramètres, nous reviendrons sur ce point dans les questions
|
||||||
suivantes ; il faut cependant garder une chose à l'esprit, le Standard
|
suivantes ; il faut cependant garder une chose à l'esprit, le Standard
|
||||||
Unicode définit des listes de caractères, donne une description de chaque
|
Unicode définit des listes de caractères, donne un nom à chaque
|
||||||
caractère (« a » est décrite par "LATIN SMALL LETTER A"), mais en aucun
|
caractère (pour « a », c'est "LATIN SMALL LETTER A"), mais en aucun
|
||||||
cas, le glyphe devant représenter chaque caractère n'est normalisé, en
|
cas, le glyphe devant représenter chaque caractère n'est normalisé, en
|
||||||
effet, plusieurs fontes de caractères peuvent être utilisées.</p>
|
effet, plusieurs fontes de caractères peuvent être utilisées.</p>
|
||||||
|
|
||||||
<h3><a name="utf8">Qu'est-ce que « UTF-8 » ?</a></h3>
|
<h3><a name="utf8">Qu'est-ce que « UTF-8 » ?</a></h3>
|
||||||
|
|
||||||
<p>"UTF" est formé des initiales de "Unicode Transformation Format".
|
<p>"UTF" est formé des initiales de "Unicode Transformation Format".
|
||||||
Les ordinateurs stoquent et échangent leurs données le plus souvent sous
|
Les ordinateurs stoquent et échangent leurs données le plus souvent sous
|
||||||
|
@ -95,7 +95,7 @@ et les <a href="#test-navigateur">navigateurs Web</a>.
|
||||||
|
|
||||||
<h2><a name="terminaux">Terminaux Unicode</a></h2>
|
<h2><a name="terminaux">Terminaux Unicode</a></h2>
|
||||||
|
|
||||||
<h3>Qu'est-ce qu'un terminal Unicode ?</h3>
|
<h3>Qu'est-ce qu'un terminal Unicode ?</h3>
|
||||||
|
|
||||||
<p>Un terminal (ou un émulateur de terminal) consiste en une interface
|
<p>Un terminal (ou un émulateur de terminal) consiste en une interface
|
||||||
qui permet de saisir et d'afficher du texte, divers programmes peuvent
|
qui permet de saisir et d'afficher du texte, divers programmes peuvent
|
||||||
|
@ -124,7 +124,7 @@ chinois/japonais/cor
|
||||||
d'une seule.
|
d'une seule.
|
||||||
</p>
|
</p>
|
||||||
|
|
||||||
<h3><a name="uxterm">Comment lancer un terminal Unicode ?</a></h3>
|
<h3><a name="uxterm">Comment lancer un terminal Unicode ?</a></h3>
|
||||||
|
|
||||||
<p>Il existe beaucoup d'émulateurs de terminaux sous Unix, certains
|
<p>Il existe beaucoup d'émulateurs de terminaux sous Unix, certains
|
||||||
savent gérer Unicode, d'autres non. Le programme
|
savent gérer Unicode, d'autres non. Le programme
|
||||||
|
@ -157,7 +157,7 @@ Autrement dit, on lance le programme <code>xxd</code> qui va servir
|
||||||
afficher la représentation en hexadécimal du texte que l'on va
|
afficher la représentation en hexadécimal du texte que l'on va
|
||||||
saisir : on saisit un e accent aigu avec la touche compose,
|
saisir : on saisit un e accent aigu avec la touche compose,
|
||||||
on valide et on ferme avec <code><Control-D></code>. Si on se trouve dans
|
on valide et on ferme avec <code><Control-D></code>. Si on se trouve dans
|
||||||
un terminal <code>latin-1</code>, on va voir :
|
un terminal <code>latin-1</code>, on va voir :
|
||||||
</p>
|
</p>
|
||||||
<pre><span class="prompt">clipper ~ $</span> xxd
|
<pre><span class="prompt">clipper ~ $</span> xxd
|
||||||
é
|
é
|
||||||
|
@ -343,8 +343,9 @@ d'Euler-Poincaré
|
||||||
Il faut alors dire à l'éditeur de reconsidérer le fichier pour le traiter
|
Il faut alors dire à l'éditeur de reconsidérer le fichier pour le traiter
|
||||||
comme de l'UTF-8. Dans Vim, on peut taper <code>:edit ++enc=utf-8</code>
|
comme de l'UTF-8. Dans Vim, on peut taper <code>:edit ++enc=utf-8</code>
|
||||||
en mode commande. Dans Emacs, aller dans le menu Options, choisir Mule,
|
en mode commande. Dans Emacs, aller dans le menu Options, choisir Mule,
|
||||||
puis Set Coding System For Reverting This File Now, taper
|
puis Set Coding System For Reverting This File Now
|
||||||
<code>utf-8</code> et valider.</p>
|
(<code>C-x RET r</code>),
|
||||||
|
taper <code>utf-8</code> et valider.</p>
|
||||||
|
|
||||||
<h3>Je veux enregistrer mon fichier dans un autre encodage. Comment
|
<h3>Je veux enregistrer mon fichier dans un autre encodage. Comment
|
||||||
faire ?</h3>
|
faire ?</h3>
|
||||||
|
@ -354,7 +355,8 @@ est <code>fileencoding</code>, on peut ainsi faire <code>:set
|
||||||
fileencoding=latin-1</code> ou <code>set fileencoding=utf-8</code> si on
|
fileencoding=latin-1</code> ou <code>set fileencoding=utf-8</code> si on
|
||||||
veut changer d'encodage ; cela prendra effet au prochain
|
veut changer d'encodage ; cela prendra effet au prochain
|
||||||
<code>:w</code>. Dans Emacs, aller dans le menu Options, choisir Mule,
|
<code>:w</code>. Dans Emacs, aller dans le menu Options, choisir Mule,
|
||||||
puis Set Coding System For Saving This Buffer, entrer le nom de
|
puis Set Coding System For Saving This Buffer
|
||||||
|
(<code>C-x RET f</code>), entrer le nom de
|
||||||
l'encodage et valider.</p>
|
l'encodage et valider.</p>
|
||||||
|
|
||||||
<h3><a name="latex">Comment mettre en page du texte dans des langues
|
<h3><a name="latex">Comment mettre en page du texte dans des langues
|
||||||
|
@ -368,7 +370,7 @@ pour du grec, du cyrillique, du chinois et du japonais).
|
||||||
</p>
|
</p>
|
||||||
|
|
||||||
<p>
|
<p>
|
||||||
Des variantes de TeX/LaTeX ont été développées récemment : Omega/Lambda
|
Des variantes de TeX/LaTeX ont été développées récemment : Omega/Lambda
|
||||||
puis Aleph/Lamed. Elles gèrent non plus des suites d'octets (256 valeurs
|
puis Aleph/Lamed. Elles gèrent non plus des suites d'octets (256 valeurs
|
||||||
possibles) mais des suites de deux octets (65536 valeurs possibles). On
|
possibles) mais des suites de deux octets (65536 valeurs possibles). On
|
||||||
peut ainsi imaginer une grosse fonte virtuelle contenant les glyphes de
|
peut ainsi imaginer une grosse fonte virtuelle contenant les glyphes de
|
||||||
|
@ -433,7 +435,7 @@ peut le faire.
|
||||||
<h2><a name="internet">Unicode et Internet</a></h2>
|
<h2><a name="internet">Unicode et Internet</a></h2>
|
||||||
|
|
||||||
<h3><a name="html">Comment insérer un caractère
|
<h3><a name="html">Comment insérer un caractère
|
||||||
Unicode dans une page Web ?</a></h3>
|
Unicode dans une page Web ?</a></h3>
|
||||||
|
|
||||||
<p>Il y a deux méthodes. La première consiste à utiliser des entités
|
<p>Il y a deux méthodes. La première consiste à utiliser des entités
|
||||||
HTML : si on insère la chaîne de caractères
|
HTML : si on insère la chaîne de caractères
|
||||||
|
@ -443,7 +445,7 @@ est en mesure d'afficher ce caract
|
||||||
caractère U+203D INTERROBANG. Pour un caractère Unicode quelconque, il
|
caractère U+203D INTERROBANG. Pour un caractère Unicode quelconque, il
|
||||||
suffit de remplacer <code>203d</code> par la représentation en
|
suffit de remplacer <code>203d</code> par la représentation en
|
||||||
hexadécimal du numéro du caractère Unicode. On peut aussi utiliser le
|
hexadécimal du numéro du caractère Unicode. On peut aussi utiliser le
|
||||||
numéro sous sa forme décimale : <code>&#8253;</code> (‽).
|
numéro sous sa forme décimale : <code>&#8253;</code> (‽).
|
||||||
</p>
|
</p>
|
||||||
|
|
||||||
<p>
|
<p>
|
||||||
|
@ -454,13 +456,20 @@ suppose d'avoir convenablement d
|
||||||
peut se faire en insérant la balise suivante
|
peut se faire en insérant la balise suivante
|
||||||
</p>
|
</p>
|
||||||
<pre>
|
<pre>
|
||||||
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
|
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" >
|
||||||
</pre>
|
</pre>
|
||||||
<p class="continue">
|
<p class="continue">
|
||||||
dans les en-têtes du fichier HTML (entre <code><meta></code> et
|
dans les en-têtes du fichier HTML (entre <code><meta></code> et
|
||||||
<code></meta></code>). Si le fichier est en XHTML, il est
|
<code></meta></code>). Si le fichier est en XHTML, il faut fermer
|
||||||
|
la balise <code><meta></code> :
|
||||||
|
</p>
|
||||||
|
<pre>
|
||||||
|
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
|
||||||
|
</pre>
|
||||||
|
<p class="continue">
|
||||||
|
et il est
|
||||||
recommandable de définir l'encodage du fichier en faisant de plus
|
recommandable de définir l'encodage du fichier en faisant de plus
|
||||||
une déclaration XML en tête de fichier :
|
une déclaration XML sur la première ligne du fichier :
|
||||||
</p>
|
</p>
|
||||||
<pre>
|
<pre>
|
||||||
<?xml version="1.0" encoding="UTF-8"?>
|
<?xml version="1.0" encoding="UTF-8"?>
|
||||||
|
@ -473,11 +482,11 @@ caract
|
||||||
deuxième méthode pour éditer directement le fichier HTML dans un
|
deuxième méthode pour éditer directement le fichier HTML dans un
|
||||||
éditeur gérant l'encodage UTF-8. Notons que les deux méthodes ne sont pas
|
éditeur gérant l'encodage UTF-8. Notons que les deux méthodes ne sont pas
|
||||||
incompatibles, on peut mettre des entités HTML du type ci-dessus dans un
|
incompatibles, on peut mettre des entités HTML du type ci-dessus dans un
|
||||||
fichier HTML encodé en UTF-8.
|
fichier HTML, quelque soit son encodage, y compris UTF-8.
|
||||||
</p>
|
</p>
|
||||||
|
|
||||||
<h3>Mon navigateur Web affiche mal mes caractères
|
<h3>Mon navigateur Web affiche mal mes caractères
|
||||||
Unicode. Que faire ?</h3>
|
Unicode. Que faire ?</h3>
|
||||||
|
|
||||||
<p>Certains navigateurs (comme <a
|
<p>Certains navigateurs (comme <a
|
||||||
href="&url.tuteurs;logiciels/mozilla/">Mozilla</a>) permettent de
|
href="&url.tuteurs;logiciels/mozilla/">Mozilla</a>) permettent de
|
||||||
|
@ -487,7 +496,7 @@ d
|
||||||
navigateur de choisir directement la bonne fonte à utiliser pour afficher
|
navigateur de choisir directement la bonne fonte à utiliser pour afficher
|
||||||
les caractères, au lieu de parcourir toutes les fontes existantes jusqu'à
|
les caractères, au lieu de parcourir toutes les fontes existantes jusqu'à
|
||||||
en trouver une qui associe un glyphe au numéro Unicode voulu. Ceci peut
|
en trouver une qui associe un glyphe au numéro Unicode voulu. Ceci peut
|
||||||
donner des résultats horribles : imaginons que vous ayez un texte en grec
|
donner des résultats horribles : imaginons que vous ayez un texte en grec
|
||||||
ancien avec beaucoup d'accents et d'esprits et que la fonte par défaut ne
|
ancien avec beaucoup d'accents et d'esprits et que la fonte par défaut ne
|
||||||
contienne que les caractères grecs de base (sans les accents), on risque
|
contienne que les caractères grecs de base (sans les accents), on risque
|
||||||
de se retrouver avec un mélange du plus mauvais effet entre deux fontes
|
de se retrouver avec un mélange du plus mauvais effet entre deux fontes
|
||||||
|
@ -504,7 +513,7 @@ dans tuteurs.css provoque un comportement bizarre. -->
|
||||||
Pour insérer le mot Hindi <a style="text-align: left;"><cite lang="hi"
|
Pour insérer le mot Hindi <a style="text-align: left;"><cite lang="hi"
|
||||||
xml:lang="hi">बिरयानी</cite></a>
|
xml:lang="hi">बिरयानी</cite></a>
|
||||||
dont une transcription est « biryânî », on a utilisé le code
|
dont une transcription est « biryânî », on a utilisé le code
|
||||||
suivant :
|
suivant :
|
||||||
</p>
|
</p>
|
||||||
<pre>
|
<pre>
|
||||||
<cite lang="hi" xml:lang="hi">&#x92c;&#x93f;&#x930;&#x92f;&#x93e;&#x928;&#x940;</cite>
|
<cite lang="hi" xml:lang="hi">&#x92c;&#x93f;&#x930;&#x92f;&#x93e;&#x928;&#x940;</cite>
|
||||||
|
@ -535,7 +544,7 @@ grec, absence de certaines ligatures, etc...). </p>
|
||||||
<h2>Divers</h2>
|
<h2>Divers</h2>
|
||||||
|
|
||||||
<h3><a name="troll">Je voudrais mettre des accents dans mes noms de
|
<h3><a name="troll">Je voudrais mettre des accents dans mes noms de
|
||||||
fichiers, et ça me marche pas. Que faire ?</a></h3>
|
fichiers, et ça me marche pas. Que faire ?</a></h3>
|
||||||
|
|
||||||
<p>C'est une très mauvaise idée de vouloir mettre des caractères
|
<p>C'est une très mauvaise idée de vouloir mettre des caractères
|
||||||
accentués (ou exotiques) dans les noms de fichiers. Le fait de mettre des
|
accentués (ou exotiques) dans les noms de fichiers. Le fait de mettre des
|
||||||
|
@ -546,8 +555,8 @@ quand on veut transf
|
||||||
disquette). Bref, à éviter absolument.</p>
|
disquette). Bref, à éviter absolument.</p>
|
||||||
|
|
||||||
<div class="metainformation">
|
<div class="metainformation">
|
||||||
Auteur : Joël Riou.
|
Auteur : Joël Riou.
|
||||||
Dernière modification le <date value="$Date: 2005-05-29 00:03:35 $" />.
|
Dernière modification le <date value="$Date: 2005-05-29 09:07:50 $" />.
|
||||||
</div>
|
</div>
|
||||||
|
|
||||||
</body>
|
</body>
|
||||||
|
|
Loading…
Reference in a new issue