From 2c33045e919c22cae530f8e43baae0342fa2e7f0 Mon Sep 17 00:00:00 2001 From: jriou Date: Sun, 29 May 2005 09:07:50 +0000 Subject: [PATCH] Prise en compte des remarques de Gro-Tsen et de Baptiste --- faq/utf8.tml | 71 +++++++++++++++++++++++++++++----------------------- 1 file changed, 40 insertions(+), 31 deletions(-) diff --git a/faq/utf8.tml b/faq/utf8.tml index c4acd2b..bc00cd0 100644 --- a/faq/utf8.tml +++ b/faq/utf8.tml @@ -8,7 +8,7 @@ -

Foire Aux Questions des Tuteurs : Unicode, UTF-8

+

Foire Aux Questions des Tuteurs : Unicode, UTF-8

Cette Foire Aux Questions (FAQ) rassemble entre autres des @@ -20,7 +20,7 @@ public (et aussi sous Windows).

Généralités et théorie

-

Qu'est-ce que le Standard Unicode ?

+

Qu'est-ce que le Standard Unicode ?

Le Standard Unicode est produit par une organisation à but non lucratif (le Consortium Unicode) ayant @@ -28,32 +28,32 @@ pour objectif d'attribuer un num humaine. Cette entreprise vise à une certaine universalité. Les alphabets de beaucoup de langues sont déjà inscrits dans ce standard. On y trouve évidemment les alphabets latins, grecs et cyrilliques (avec certaines de -leurs variantes, par exemple, un caractère comme « œ » y figure, +leurs variantes, par exemple, un caractère comme « œ » y figure, bien qu'il ne soit pas utilisé dans la plupart des autres langues européennes utilisant l'alphabet latin). Beaucoup de langues parlées en -Asie figurent aussi dans le standard : des dizaines de miliers de +Asie figurent aussi dans le standard : des dizaines de miliers de caractères chinois, japonais ou coréens sont définis. Le standard contient bien d'autres alphabets, la consultation des tableaux de caractères (dans la version imprimée du standard ou sur le site officiel) est une véritable source d'émerveillement...

-

Qu'est-ce qu'un caractère Unicode ?

+

Qu'est-ce qu'un caractère Unicode ?

Un caractère Unicode est un caractère défini dans le Standard Unicode. On y fait souvent référence par son numéro écrit en hexadécimal précédé -de «U+». Par exemple, la lettre latine « a » correspond à U+0061, la lettre -cyrillique « Ѭ » correspond à U+046C et le "DEVANAGARI OM" -« ॐ » correspond à U+0950. Certains de ces caractères ne +de «U+». Par exemple, la lettre latine « a » correspond à U+0061, la lettre +cyrillique « Я » correspond à U+042F et le "DEVANAGARI OM" +« ॐ » correspond à U+0950. Certains de ces caractères ne s'affichent peut-être pas correctement sur votre écran, cela dépend de plusieurs paramètres, nous reviendrons sur ce point dans les questions -suivantes ; il faut cependant garder une chose à l'esprit, le Standard -Unicode définit des listes de caractères, donne une description de chaque -caractère (« a » est décrite par "LATIN SMALL LETTER A"), mais en aucun +suivantes ; il faut cependant garder une chose à l'esprit, le Standard +Unicode définit des listes de caractères, donne un nom à chaque +caractère (pour « a », c'est "LATIN SMALL LETTER A"), mais en aucun cas, le glyphe devant représenter chaque caractère n'est normalisé, en effet, plusieurs fontes de caractères peuvent être utilisées.

-

Qu'est-ce que « UTF-8 » ?

+

Qu'est-ce que « UTF-8 » ?

"UTF" est formé des initiales de "Unicode Transformation Format". Les ordinateurs stoquent et échangent leurs données le plus souvent sous @@ -95,7 +95,7 @@ et les navigateurs Web.

Terminaux Unicode

-

Qu'est-ce qu'un terminal Unicode ?

+

Qu'est-ce qu'un terminal Unicode ?

Un terminal (ou un émulateur de terminal) consiste en une interface qui permet de saisir et d'afficher du texte, divers programmes peuvent @@ -124,7 +124,7 @@ chinois/japonais/cor d'une seule.

-

Comment lancer un terminal Unicode ?

+

Comment lancer un terminal Unicode ?

Il existe beaucoup d'émulateurs de terminaux sous Unix, certains savent gérer Unicode, d'autres non. Le programme @@ -157,7 +157,7 @@ Autrement dit, on lance le programme xxd qui va servir afficher la représentation en hexadécimal du texte que l'on va saisir : on saisit un e accent aigu avec la touche compose, on valide et on ferme avec <Control-D>. Si on se trouve dans -un terminal latin-1, on va voir : +un terminal latin-1, on va voir :

clipper ~ $ xxd
 é
@@ -343,8 +343,9 @@ d'Euler-Poincaré 
 Il faut alors dire à l'éditeur de reconsidérer le fichier pour le traiter
 comme de l'UTF-8. Dans Vim, on peut taper :edit ++enc=utf-8
 en mode commande. Dans Emacs, aller dans le menu Options, choisir Mule,
-puis Set Coding System For Reverting This File Now, taper
-utf-8 et valider.

+puis Set Coding System For Reverting This File Now +(C-x RET r), +taper utf-8 et valider.

Je veux enregistrer mon fichier dans un autre encodage. Comment faire ?

@@ -354,7 +355,8 @@ est fileencoding, on peut ainsi faire :set fileencoding=latin-1 ou set fileencoding=utf-8 si on veut changer d'encodage ; cela prendra effet au prochain :w. Dans Emacs, aller dans le menu Options, choisir Mule, -puis Set Coding System For Saving This Buffer, entrer le nom de +puis Set Coding System For Saving This Buffer +(C-x RET f), entrer le nom de l'encodage et valider.

Comment mettre en page du texte dans des langues @@ -368,7 +370,7 @@ pour du grec, du cyrillique, du chinois et du japonais).

-Des variantes de TeX/LaTeX ont été développées récemment : Omega/Lambda +Des variantes de TeX/LaTeX ont été développées récemment : Omega/Lambda puis Aleph/Lamed. Elles gèrent non plus des suites d'octets (256 valeurs possibles) mais des suites de deux octets (65536 valeurs possibles). On peut ainsi imaginer une grosse fonte virtuelle contenant les glyphes de @@ -433,7 +435,7 @@ peut le faire.

Unicode et Internet

Comment insérer un caractère -Unicode dans une page Web ?

+Unicode dans une page Web ?

Il y a deux méthodes. La première consiste à utiliser des entités HTML : si on insère la chaîne de caractères @@ -443,7 +445,7 @@ est en mesure d'afficher ce caract caractère U+203D INTERROBANG. Pour un caractère Unicode quelconque, il suffit de remplacer 203d par la représentation en hexadécimal du numéro du caractère Unicode. On peut aussi utiliser le -numéro sous sa forme décimale : &#8253; (‽). +numéro sous sa forme décimale : &#8253; (‽).

@@ -454,13 +456,20 @@ suppose d'avoir convenablement d peut se faire en insérant la balise suivante

-<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
+<meta http-equiv="Content-Type" content="text/html; charset=utf-8" >
 

dans les en-têtes du fichier HTML (entre <meta> et -</meta>). Si le fichier est en XHTML, il est +</meta>). Si le fichier est en XHTML, il faut fermer +la balise <meta> : +

+
+<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
+
+

+et il est recommandable de définir l'encodage du fichier en faisant de plus -une déclaration XML en tête de fichier : +une déclaration XML sur la première ligne du fichier :

 <?xml version="1.0" encoding="UTF-8"?>
@@ -473,11 +482,11 @@ caract
 deuxième méthode pour éditer directement le fichier HTML dans un
 éditeur gérant l'encodage UTF-8. Notons que les deux méthodes ne sont pas
 incompatibles, on peut mettre des entités HTML du type ci-dessus dans un
-fichier HTML encodé en UTF-8.
+fichier HTML, quelque soit son encodage, y compris UTF-8.
 

Mon navigateur Web affiche mal mes caractères -Unicode. Que faire ?

+Unicode. Que faire ?

Certains navigateurs (comme Mozilla) permettent de @@ -487,7 +496,7 @@ d navigateur de choisir directement la bonne fonte à utiliser pour afficher les caractères, au lieu de parcourir toutes les fontes existantes jusqu'à en trouver une qui associe un glyphe au numéro Unicode voulu. Ceci peut -donner des résultats horribles : imaginons que vous ayez un texte en grec +donner des résultats horribles : imaginons que vous ayez un texte en grec ancien avec beaucoup d'accents et d'esprits et que la fonte par défaut ne contienne que les caractères grecs de base (sans les accents), on risque de se retrouver avec un mélange du plus mauvais effet entre deux fontes @@ -504,7 +513,7 @@ dans tuteurs.css provoque un comportement bizarre. --> Pour insérer le mot Hindi बिरयानी dont une transcription est « biryânî », on a utilisé le code -suivant : +suivant :

 <cite lang="hi" xml:lang="hi">&#x92c;&#x93f;&#x930;&#x92f;&#x93e;&#x928;&#x940;</cite>
@@ -535,7 +544,7 @@ grec, absence de certaines ligatures, etc...). 

Divers

Je voudrais mettre des accents dans mes noms de -fichiers, et ça me marche pas. Que faire ?

+fichiers, et ça me marche pas. Que faire ?

C'est une très mauvaise idée de vouloir mettre des caractères accentués (ou exotiques) dans les noms de fichiers. Le fait de mettre des @@ -546,8 +555,8 @@ quand on veut transf disquette). Bref, à éviter absolument.

-Auteur : Joël Riou. -Dernière modification le . +Auteur : Joël Riou. +Dernière modification le .