Prise en compte des remarques de Gro-Tsen et de Baptiste

This commit is contained in:
jriou 2005-05-29 09:07:50 +00:00
parent beed5f8c38
commit 2c33045e91

View file

@ -8,7 +8,7 @@
</head>
<body>
<h1>Foire Aux Questions des Tuteurs : Unicode, UTF-8</h1>
<h1>Foire Aux Questions des Tuteurs&nbsp;: Unicode, UTF-8</h1>
<p>Cette Foire Aux Questions (<a
href="&url.tuteurs;jargon.html#FAQ">FAQ</a>) rassemble entre autres des
@ -20,7 +20,7 @@ public (et aussi sous Windows).</p>
<h2>Généralités et théorie</h2>
<h3><a name="unicode">Qu'est-ce que le Standard Unicode ?</a></h3>
<h3><a name="unicode">Qu'est-ce que le Standard Unicode&nbsp;?</a></h3>
<p>Le <a href="http://www.unicode.org/">Standard Unicode</a> est produit
par une organisation à but non lucratif (le Consortium Unicode) ayant
@ -28,32 +28,32 @@ pour objectif d'attribuer un num
humaine. Cette entreprise vise à une certaine universalité. Les alphabets
de <b>beaucoup</b> de langues sont déjà inscrits dans ce standard. On y trouve
évidemment les alphabets latins, grecs et cyrilliques (avec certaines de
leurs variantes, par exemple, un caractère comme « &oelig; » y figure,
leurs variantes, par exemple, un caractère comme «&nbsp;&oelig;&nbsp;» y figure,
bien qu'il ne soit pas utilisé dans la plupart des autres langues
européennes utilisant l'alphabet latin). Beaucoup de langues parlées en
Asie figurent aussi dans le standard : des dizaines de miliers de
Asie figurent aussi dans le standard&nbsp;: des dizaines de miliers de
caractères chinois, japonais ou coréens sont définis. Le standard
contient bien d'autres alphabets, la consultation des tableaux de
caractères (dans la version imprimée du standard ou <a
href="http://www.unicode.org/charts/">sur le site officiel</a>) est une
véritable source d'émerveillement... </p>
<h3><a name="caractere">Qu'est-ce qu'un caractère Unicode ?</a></h3>
<h3><a name="caractere">Qu'est-ce qu'un caractère Unicode&nbsp;?</a></h3>
<p>Un caractère Unicode est un caractère défini dans le Standard Unicode.
On y fait souvent référence par son numéro écrit en hexadécimal précédé
de «U+». Par exemple, la lettre latine « a » correspond à U+0061, la lettre
cyrillique « &#x046c; » correspond à U+046C et le "DEVANAGARI OM"
« &#x0950; » correspond à U+0950. Certains de ces caractères ne
de «U+». Par exemple, la lettre latine «&nbsp;a&nbsp;» correspond à U+0061, la lettre
cyrillique «&nbsp;&#x042f;&nbsp;» correspond à U+042F et le "DEVANAGARI OM"
«&nbsp;&#x0950;&nbsp;» correspond à U+0950. Certains de ces caractères ne
s'affichent peut-être pas correctement sur votre écran, cela dépend de
plusieurs paramètres, nous reviendrons sur ce point dans les questions
suivantes ; il faut cependant garder une chose à l'esprit, le Standard
Unicode définit des listes de caractères, donne une description de chaque
caractère (« a » est décrite par "LATIN SMALL LETTER A"), mais en aucun
suivantes&nbsp;; il faut cependant garder une chose à l'esprit, le Standard
Unicode définit des listes de caractères, donne un nom à chaque
caractère (pour «&nbsp;a&nbsp;», c'est "LATIN SMALL LETTER A"), mais en aucun
cas, le glyphe devant représenter chaque caractère n'est normalisé, en
effet, plusieurs fontes de caractères peuvent être utilisées.</p>
<h3><a name="utf8">Qu'est-ce que « UTF-8 » ?</a></h3>
<h3><a name="utf8">Qu'est-ce que «&nbsp;UTF-8&nbsp;»&nbsp;?</a></h3>
<p>"UTF" est formé des initiales de "Unicode Transformation Format".
Les ordinateurs stoquent et échangent leurs données le plus souvent sous
@ -95,7 +95,7 @@ et les <a href="#test-navigateur">navigateurs Web</a>.
<h2><a name="terminaux">Terminaux Unicode</a></h2>
<h3>Qu'est-ce qu'un terminal Unicode ?</h3>
<h3>Qu'est-ce qu'un terminal Unicode&nbsp;?</h3>
<p>Un terminal (ou un émulateur de terminal) consiste en une interface
qui permet de saisir et d'afficher du texte, divers programmes peuvent
@ -124,7 +124,7 @@ chinois/japonais/cor
d'une seule.
</p>
<h3><a name="uxterm">Comment lancer un terminal Unicode ?</a></h3>
<h3><a name="uxterm">Comment lancer un terminal Unicode&nbsp;?</a></h3>
<p>Il existe beaucoup d'émulateurs de terminaux sous Unix, certains
savent gérer Unicode, d'autres non. Le programme
@ -157,7 +157,7 @@ Autrement dit, on lance le programme <code>xxd</code> qui va servir
afficher la représentation en hexadécimal du texte que l'on va
saisir&nbsp;: on saisit un e accent aigu avec la touche compose,
on valide et on ferme avec <code>&lt;Control-D&gt;</code>. Si on se trouve dans
un terminal <code>latin-1</code>, on va voir :
un terminal <code>latin-1</code>, on va voir&nbsp;:
</p>
<pre><span class="prompt">clipper ~ $</span>&nbsp;xxd
é
@ -343,8 +343,9 @@ d'Euler-Poincaré&nbsp;
Il faut alors dire à l'éditeur de reconsidérer le fichier pour le traiter
comme de l'UTF-8. Dans Vim, on peut taper <code>:edit ++enc=utf-8</code>
en mode commande. Dans Emacs, aller dans le menu Options, choisir Mule,
puis Set Coding System For Reverting This File Now, taper
<code>utf-8</code> et valider.</p>
puis Set Coding System For Reverting This File Now
(<code>C-x&nbsp;RET&nbsp;r</code>),
taper <code>utf-8</code> et valider.</p>
<h3>Je veux enregistrer mon fichier dans un autre encodage. Comment
faire&nbsp;?</h3>
@ -354,7 +355,8 @@ est <code>fileencoding</code>, on peut ainsi faire <code>:set
fileencoding=latin-1</code> ou <code>set fileencoding=utf-8</code> si on
veut changer d'encodage&nbsp;; cela prendra effet au prochain
<code>:w</code>. Dans Emacs, aller dans le menu Options, choisir Mule,
puis Set Coding System For Saving This Buffer, entrer le nom de
puis Set Coding System For Saving This Buffer
(<code>C-x&nbsp;RET&nbsp;f</code>), entrer le nom de
l'encodage et valider.</p>
<h3><a name="latex">Comment mettre en page du texte dans des langues
@ -368,7 +370,7 @@ pour du grec, du cyrillique, du chinois et du japonais).
</p>
<p>
Des variantes de TeX/LaTeX ont été développées récemment : Omega/Lambda
Des variantes de TeX/LaTeX ont été développées récemment&nbsp;: Omega/Lambda
puis Aleph/Lamed. Elles gèrent non plus des suites d'octets (256 valeurs
possibles) mais des suites de deux octets (65536 valeurs possibles). On
peut ainsi imaginer une grosse fonte virtuelle contenant les glyphes de
@ -433,7 +435,7 @@ peut le faire.
<h2><a name="internet">Unicode et Internet</a></h2>
<h3><a name="html">Comment insérer un caractère
Unicode dans une page Web ?</a></h3>
Unicode dans une page Web&nbsp;?</a></h3>
<p>Il y a deux méthodes. La première consiste à utiliser des entités
HTML&nbsp;: si on insère la chaîne de caractères
@ -443,7 +445,7 @@ est en mesure d'afficher ce caract
caractère U+203D INTERROBANG. Pour un caractère Unicode quelconque, il
suffit de remplacer <code>203d</code> par la représentation en
hexadécimal du numéro du caractère Unicode. On peut aussi utiliser le
numéro sous sa forme décimale : <code>&amp;#8253;</code> (&#8253;).
numéro sous sa forme décimale&nbsp;: <code>&amp;#8253;</code> (&#8253;).
</p>
<p>
@ -454,13 +456,20 @@ suppose d'avoir convenablement d
peut se faire en insérant la balise suivante
</p>
<pre>
&lt;meta http-equiv="Content-Type" content="text/html; charset=utf-8" /&gt;
&lt;meta http-equiv="Content-Type" content="text/html; charset=utf-8" &gt;
</pre>
<p class="continue">
dans les en-têtes du fichier HTML (entre <code>&lt;meta&gt;</code> et
<code>&lt;/meta&gt;</code>). Si le fichier est en XHTML, il est
<code>&lt;/meta&gt;</code>). Si le fichier est en XHTML, il faut fermer
la balise <code>&lt;meta&gt;</code>&nbsp;:
</p>
<pre>
&lt;meta http-equiv="Content-Type" content="text/html; charset=utf-8" /&gt;
</pre>
<p class="continue">
et il est
recommandable de définir l'encodage du fichier en faisant de plus
une déclaration XML en tête de fichier :
une déclaration XML sur la première ligne du fichier&nbsp;:
</p>
<pre>
&lt;?xml version="1.0" encoding="UTF-8"?&gt;
@ -473,11 +482,11 @@ caract
deuxième méthode pour éditer directement le fichier HTML dans un
éditeur gérant l'encodage UTF-8. Notons que les deux méthodes ne sont pas
incompatibles, on peut mettre des entités HTML du type ci-dessus dans un
fichier HTML encodé en UTF-8.
fichier HTML, quelque soit son encodage, y compris UTF-8.
</p>
<h3>Mon navigateur Web affiche mal mes caractères
Unicode. Que faire ?</h3>
Unicode. Que faire&nbsp;?</h3>
<p>Certains navigateurs (comme <a
href="&url.tuteurs;logiciels/mozilla/">Mozilla</a>) permettent de
@ -487,7 +496,7 @@ d
navigateur de choisir directement la bonne fonte à utiliser pour afficher
les caractères, au lieu de parcourir toutes les fontes existantes jusqu'à
en trouver une qui associe un glyphe au numéro Unicode voulu. Ceci peut
donner des résultats horribles : imaginons que vous ayez un texte en grec
donner des résultats horribles&nbsp;: imaginons que vous ayez un texte en grec
ancien avec beaucoup d'accents et d'esprits et que la fonte par défaut ne
contienne que les caractères grecs de base (sans les accents), on risque
de se retrouver avec un mélange du plus mauvais effet entre deux fontes
@ -504,7 +513,7 @@ dans tuteurs.css provoque un comportement bizarre. -->
Pour insérer le mot Hindi <a style="text-align: left;"><cite lang="hi"
xml:lang="hi">&#x92c;&#x93f;&#x930;&#x92f;&#x93e;&#x928;&#x940;</cite></a>
dont une transcription est «&nbsp;biryânî&nbsp;», on a utilisé le code
suivant :
suivant&nbsp;:
</p>
<pre>
&lt;cite lang="hi" xml:lang="hi"&gt;&amp;#x92c;&amp;#x93f;&amp;#x930;&amp;#x92f;&amp;#x93e;&amp;#x928;&amp;#x940;&lt;/cite&gt;
@ -535,7 +544,7 @@ grec, absence de certaines ligatures, etc...). </p>
<h2>Divers</h2>
<h3><a name="troll">Je voudrais mettre des accents dans mes noms de
fichiers, et ça me marche pas. Que faire ?</a></h3>
fichiers, et ça me marche pas. Que faire&nbsp;?</a></h3>
<p>C'est une très mauvaise idée de vouloir mettre des caractères
accentués (ou exotiques) dans les noms de fichiers. Le fait de mettre des
@ -546,8 +555,8 @@ quand on veut transf
disquette). Bref, à éviter absolument.</p>
<div class="metainformation">
Auteur : Joël Riou.
Dernière modification le <date value="$Date: 2005-05-29 00:03:35 $" />.
Auteur&nbsp;: Joël Riou.
Dernière modification le <date value="$Date: 2005-05-29 09:07:50 $" />.
</div>
</body>