Difference between revisions of "UTF-8/fr"

Revision as of 21:29, 9 July 2014

│ English (en) │ suomi (fi) │ français (fr) │ русский (ru) │

UTF-8 (8-bits UCS/Unicode Transformation Format) est un encodage des caractères en longueur variable pour l'Unicode. Les caractères Unicode allant de U+0000 à U+007F sont encodés simplement comme les octets correspondants de 00h à 7Fh. Cela signifie que les fichiers et les chaînes qui contiennent seulement des caractères ASCII 7-bits ont le même encodage à la fois en ASCII et en UTF-8.

Tous les caractères > U+007F sont encodés comme une séquence de plusieurs octets, chacun de ceux-là ont les 2 bits les plus significatifs de mis. Aucune séquence d'octets d'un caractère n'est contenue dans une séquence d'octets plus longue d'un autre caractère. Cela permet des recherches rapides de sous-chaînes. Le premier octet d'une séquence multi-octet qui représente un caractère non ASCII est toujours dans l'intervalle de C0h à FDh et il indique combien d'octets suivent pour ce caractère. Tous les autres octets de la séquence multi-octet sont dans l'intervalle 80h à BFh. Cela permet des resynchronisations rapides et de la robustesse.

Séquence d'octets UTF-8
Points de code	1er byte	2ème byte	3ème byte	4ème byte	Bit le plus significatif du 1er octet d'une séquence multi-octet
U+0000..U+007F	00..7F				0	ASCII
U+0080..U+07FF	C2..DF	80..BF			110	- Caractères UTF-8 Latin
U+0080..U+07FF	C2..DF	80..BF			110
U+0800..U+0FFF	E0	A0..BF	80..BF		1110
U+1000..U+FFFF	E1..EF	80..BF	80..BF		1110
U+10000..U+3FFFF	F0	90..BF	80..BF	80..BF	11110
U+40000..U+FFFFF	F1..F3	80..BF	80..BF	80..BF	11110
U+100000..U+10FFFF	F4	80..BF	80..BF	80..BF	11110

Fonctions UTF8

L'unité System contient quelques fonctions basiques:

UnicodeToUtf8
Utf8ToUnicode
UTF8Encode
UTF8Decode
AnsiToUtf8
Utf8ToAnsi

Voir aussi

Travailler avec les répertoires et les noms de fichiers - Fonctions UTF8 pour les fichiers
Support de l'Unicode par la LCL - UTF8 dans les applications graphiques
Console mode Pascal: Unicode (UTF8) output - montrant des sorties UTF8 de programmes en mode console/ mode texte

@@ Line 1: / Line 1: @@
 {{UTF-8}}
-UTF-8 (8-bit UCS/Unicode Transformation Format) is a variable-length character encoding for Unicode. Unicode characters U+0000 to U+007F are encoded simply as bytes 00h to 7Fh. This means that files and strings which contain only 7-bit [[ASCII]] characters have the same encoding under both ASCII and UTF-8.
+UTF-8 (8-bits UCS/Unicode Transformation Format) est un encodage des caractères en longueur variable pour l'Unicode. Les caractères Unicode allant de U+0000 à U+007F sont encodés simplement comme les octets correspondants de 00h à 7Fh. Cela signifie que les fichiers et les chaînes qui contiennent seulement des caractères ASCII 7-bits ont le même encodage à la fois en ASCII et en UTF-8.
-All characters > U+007F are encoded as a sequence of several bytes, each of which has the two most significant bits set. No byte sequence of one character is contained within a longer byte sequence of another character. This allows easy search for substrings. The first byte of a multibyte sequence that represents a non-ASCII character is always in the range C0h to FDh and it indicates how many bytes follow for this character. All further bytes in a multibyte sequence are in the range 80h to BFh. This allows easy resynchronization and robustness.
+Tous les caractères > U+007F sont encodés comme une séquence de plusieurs octets, chacun de ceux-là ont les 2 bits les plus significatifs de mis. Aucune séquence d'octets d'un caractère n'est contenue dans une séquence d'octets plus longue d'un autre caractère. Cela permet des recherches rapides de sous-chaînes. Le premier octet d'une séquence multi-octet qui représente un caractère non ASCII est toujours dans l'intervalle de C0h à FDh et il indique combien d'octets suivent pour ce caractère. Tous les autres octets de la séquence multi-octet sont dans l'intervalle 80h à BFh. Cela permet des resynchronisations rapides et de la robustesse.
 {| class="wikitable"
-|+ UTF-8 byte Sequences
+|+ Séquence d'octets UTF-8
-! &nbsp; Code points
+! &nbsp; Points de code
-!1st byte
+!1er byte
-!2nd byte
+!2ème byte
-!3rd byte
+!3ème byte
-!4th byte
+!4ème byte
-!most significant bits of the first byte of a multi-byte sequence
+!Bit le plus significatif du 1er octet d'une séquence multi-octet
 !
 |-
@@ Line 30: / Line 29: @@
 | rowspan=2 |
 | rowspan=2 | &nbsp; 110
-| &nbsp; - [[UTF-8 Latin characters]]
+| &nbsp; - [[Caractères UTF-8 Latin]]
 |-
 | &nbsp;

Difference between revisions of "UTF-8/fr"

Revision as of 21:29, 9 July 2014

Fonctions UTF8

Voir aussi

Navigation menu

Page actions

Page actions

Personal tools

Navigation

Tools

Search