From 2c33045e919c22cae530f8e43baae0342fa2e7f0 Mon Sep 17 00:00:00 2001
From: jriou Cette Foire Aux Questions (FAQ) rassemble entre autres des
@@ -20,7 +20,7 @@ public (et aussi sous Windows). Le Standard Unicode est produit
par une organisation à but non lucratif (le Consortium Unicode) ayant
@@ -28,32 +28,32 @@ pour objectif d'attribuer un num
humaine. Cette entreprise vise à une certaine universalité. Les alphabets
de beaucoup de langues sont déjà inscrits dans ce standard. On y trouve
évidemment les alphabets latins, grecs et cyrilliques (avec certaines de
-leurs variantes, par exemple, un caractère comme « œ » y figure,
+leurs variantes, par exemple, un caractère comme « œ » y figure,
bien qu'il ne soit pas utilisé dans la plupart des autres langues
européennes utilisant l'alphabet latin). Beaucoup de langues parlées en
-Asie figurent aussi dans le standard : des dizaines de miliers de
+Asie figurent aussi dans le standard : des dizaines de miliers de
caractères chinois, japonais ou coréens sont définis. Le standard
contient bien d'autres alphabets, la consultation des tableaux de
caractères (dans la version imprimée du standard ou sur le site officiel) est une
véritable source d'émerveillement... Un caractère Unicode est un caractère défini dans le Standard Unicode.
On y fait souvent référence par son numéro écrit en hexadécimal précédé
-de «U+». Par exemple, la lettre latine « a » correspond à U+0061, la lettre
-cyrillique « Ѭ » correspond à U+046C et le "DEVANAGARI OM"
-« ॐ » correspond à U+0950. Certains de ces caractères ne
+de «U+». Par exemple, la lettre latine « a » correspond à U+0061, la lettre
+cyrillique « Я » correspond à U+042F et le "DEVANAGARI OM"
+« ॐ » correspond à U+0950. Certains de ces caractères ne
s'affichent peut-être pas correctement sur votre écran, cela dépend de
plusieurs paramètres, nous reviendrons sur ce point dans les questions
-suivantes ; il faut cependant garder une chose à l'esprit, le Standard
-Unicode définit des listes de caractères, donne une description de chaque
-caractère (« a » est décrite par "LATIN SMALL LETTER A"), mais en aucun
+suivantes ; il faut cependant garder une chose à l'esprit, le Standard
+Unicode définit des listes de caractères, donne un nom à chaque
+caractère (pour « a », c'est "LATIN SMALL LETTER A"), mais en aucun
cas, le glyphe devant représenter chaque caractère n'est normalisé, en
effet, plusieurs fontes de caractères peuvent être utilisées. "UTF" est formé des initiales de "Unicode Transformation Format".
Les ordinateurs stoquent et échangent leurs données le plus souvent sous
@@ -95,7 +95,7 @@ et les navigateurs Web.
Un terminal (ou un émulateur de terminal) consiste en une interface
qui permet de saisir et d'afficher du texte, divers programmes peuvent
@@ -124,7 +124,7 @@ chinois/japonais/cor
d'une seule.
Il existe beaucoup d'émulateurs de terminaux sous Unix, certains
savent gérer Unicode, d'autres non. Le programme
@@ -157,7 +157,7 @@ Autrement dit, on lance le programme Foire Aux Questions des Tuteurs : Unicode, UTF-8
+Foire Aux Questions des Tuteurs : Unicode, UTF-8
Généralités et théorie
-Qu'est-ce que le Standard Unicode ?
+Qu'est-ce que le Standard Unicode ?
Qu'est-ce qu'un caractère Unicode ?
+Qu'est-ce qu'un caractère Unicode ?
Qu'est-ce que « UTF-8 » ?
+Qu'est-ce que « UTF-8 » ?
Terminaux Unicode
-Qu'est-ce qu'un terminal Unicode ?
+Qu'est-ce qu'un terminal Unicode ?
Comment lancer un terminal Unicode ?
+Comment lancer un terminal Unicode ?
xxd
qui va servir
afficher la représentation en hexadécimal du texte que l'on va
saisir : on saisit un e accent aigu avec la touche compose,
on valide et on ferme avec <Control-D>
. Si on se trouve dans
-un terminal latin-1
, on va voir :
+un terminal latin-1
, on va voir :
clipper ~ $ xxd
é
@@ -343,8 +343,9 @@ d'Euler-Poincaré
Il faut alors dire à l'éditeur de reconsidérer le fichier pour le traiter
comme de l'UTF-8. Dans Vim, on peut taper
:edit ++enc=utf-8
en mode commande. Dans Emacs, aller dans le menu Options, choisir Mule,
-puis Set Coding System For Reverting This File Now, taper
-utf-8
et valider.
C-x RET r
),
+taper utf-8
et valider.
fileencoding
, on peut ainsi faire :set
fileencoding=latin-1
ou set fileencoding=utf-8
si on
veut changer d'encodage ; cela prendra effet au prochain
:w
. Dans Emacs, aller dans le menu Options, choisir Mule,
-puis Set Coding System For Saving This Buffer, entrer le nom de
+puis Set Coding System For Saving This Buffer
+(C-x RET f
), entrer le nom de
l'encodage et valider.
-Des variantes de TeX/LaTeX ont été développées récemment : Omega/Lambda +Des variantes de TeX/LaTeX ont été développées récemment : Omega/Lambda puis Aleph/Lamed. Elles gèrent non plus des suites d'octets (256 valeurs possibles) mais des suites de deux octets (65536 valeurs possibles). On peut ainsi imaginer une grosse fonte virtuelle contenant les glyphes de @@ -433,7 +435,7 @@ peut le faire.
Il y a deux méthodes. La première consiste à utiliser des entités
HTML : si on insère la chaîne de caractères
@@ -443,7 +445,7 @@ est en mesure d'afficher ce caract
caractère U+203D INTERROBANG. Pour un caractère Unicode quelconque, il
suffit de remplacer 203d
par la représentation en
hexadécimal du numéro du caractère Unicode. On peut aussi utiliser le
-numéro sous sa forme décimale : ‽
(‽).
+numéro sous sa forme décimale : ‽
(‽).
@@ -454,13 +456,20 @@ suppose d'avoir convenablement d peut se faire en insérant la balise suivante
-<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> +<meta http-equiv="Content-Type" content="text/html; charset=utf-8" >
dans les en-têtes du fichier HTML (entre <meta>
et
-</meta>
). Si le fichier est en XHTML, il est
+</meta>
). Si le fichier est en XHTML, il faut fermer
+la balise <meta>
:
+
+<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> ++
+et il est recommandable de définir l'encodage du fichier en faisant de plus -une déclaration XML en tête de fichier : +une déclaration XML sur la première ligne du fichier :
<?xml version="1.0" encoding="UTF-8"?> @@ -473,11 +482,11 @@ caract deuxième méthode pour éditer directement le fichier HTML dans un éditeur gérant l'encodage UTF-8. Notons que les deux méthodes ne sont pas incompatibles, on peut mettre des entités HTML du type ci-dessus dans un -fichier HTML encodé en UTF-8. +fichier HTML, quelque soit son encodage, y compris UTF-8.Mon navigateur Web affiche mal mes caractères -Unicode. Que faire ?
+Unicode. Que faire ?Certains navigateurs (comme Mozilla) permettent de @@ -487,7 +496,7 @@ d navigateur de choisir directement la bonne fonte à utiliser pour afficher les caractères, au lieu de parcourir toutes les fontes existantes jusqu'à en trouver une qui associe un glyphe au numéro Unicode voulu. Ceci peut -donner des résultats horribles : imaginons que vous ayez un texte en grec +donner des résultats horribles : imaginons que vous ayez un texte en grec ancien avec beaucoup d'accents et d'esprits et que la fonte par défaut ne contienne que les caractères grecs de base (sans les accents), on risque de se retrouver avec un mélange du plus mauvais effet entre deux fontes @@ -504,7 +513,7 @@ dans tuteurs.css provoque un comportement bizarre. --> Pour insérer le mot Hindi बिरयानी dont une transcription est « biryânî », on a utilisé le code -suivant : +suivant :
<cite lang="hi" xml:lang="hi">बिरयानी</cite> @@ -535,7 +544,7 @@ grec, absence de certaines ligatures, etc...).Divers
Je voudrais mettre des accents dans mes noms de -fichiers, et ça me marche pas. Que faire ?
+fichiers, et ça me marche pas. Que faire ?C'est une très mauvaise idée de vouloir mettre des caractères accentués (ou exotiques) dans les noms de fichiers. Le fait de mettre des @@ -546,8 +555,8 @@ quand on veut transf disquette). Bref, à éviter absolument.