Difference between revisions of "UTF-8/fr"

From Free Pascal wiki
Jump to navigationJump to search
m
 
(7 intermediate revisions by 2 users not shown)
Line 1: Line 1:
 
{{UTF-8}}
 
{{UTF-8}}
  
UTF-8 (8-bit UCS/Unicode Transformation Format) is a variable-length character encoding for Unicode. Unicode characters U+0000 to U+007F are encoded simply as bytes 00h to 7Fh. This means that files and strings which contain only 7-bit [[ASCII]] characters have the same encoding under both ASCII and UTF-8.
+
UTF-8 (8-bits UCS/Unicode Transformation Format) est un encodage des caractères en longueur variable pour l'Unicode. Les caractères Unicode allant de U+0000 à U+007F sont encodés simplement comme les octets correspondants de 00h à 7Fh. Cela signifie que les fichiers et les chaînes qui contiennent seulement des caractères ASCII 7-bits ont le même encodage à la fois en ASCII et en UTF-8.
 
 
All characters > U+007F are encoded as a sequence of several bytes, each of which has the two most significant bits set. No byte sequence of one character is contained within a longer byte sequence of another character. This allows easy search for substrings. The first byte of a multibyte sequence that represents a non-ASCII character is always in the range C0h to FDh and it indicates how many bytes follow for this character. All further bytes in a multibyte sequence are in the range 80h to BFh. This allows easy resynchronization and robustness.
 
  
 +
Tous les caractères > U+007F sont encodés comme une séquence de plusieurs octets, dont chacun a les 2 bits les plus significatifs de mis. Aucune séquence d'octets d'un caractère n'est contenue dans une séquence d'octets plus longue d'un autre caractère. Cela permet des recherches rapides de sous-chaînes. Le premier octet d'une séquence multi-octet qui représente un caractère non ASCII est toujours dans l'intervalle de C0h à FDh et il indique combien d'octets suivent pour ce caractère. Tous les autres octets de la séquence multi-octet sont dans l'intervalle 80h à BFh. Cela permet des resynchronisations rapides et de la robustesse.
  
 
{| class="wikitable"
 
{| class="wikitable"
|+ UTF-8 byte Sequences
+
|+ Séquence d'octets UTF-8
!   Code points
+
!   Points de code
!1st byte
+
!1er byte
!2nd byte
+
!2ème byte
!3rd byte
+
!3ème byte
!4th byte
+
!4ème byte
!most significant bits of the first byte of a multi-byte sequence
+
!Bit le plus significatif du 1er octet d'une séquence multi-octet
 
!
 
!
 
|-
 
|-
Line 22: Line 21:
 
|
 
|
 
|   0
 
|   0
|   [[ASCII]]    
+
|   [[ASCII/fr|ASCII]]    
 
|-
 
|-
 
| rowspan=2 |   U+0080..U+07FF
 
| rowspan=2 |   U+0080..U+07FF
Line 30: Line 29:
 
| rowspan=2 |
 
| rowspan=2 |
 
| rowspan=2 |   110
 
| rowspan=2 |   110
|   - [[UTF-8 Latin characters]]
+
|   - [[Caractères UTF-8 Latin]]
 
|-
 
|-
 
|  
 
|  
Line 77: Line 76:
 
==Fonctions UTF8==
 
==Fonctions UTF8==
  
The system unit contains some basic functions:
+
===FreePascal===
 +
L'unité System contient quelques fonctions basiques:
 
* UnicodeToUtf8
 
* UnicodeToUtf8
 
* Utf8ToUnicode
 
* Utf8ToUnicode
Line 84: Line 84:
 
* AnsiToUtf8
 
* AnsiToUtf8
 
* Utf8ToAnsi
 
* Utf8ToAnsi
 +
 +
===Lazarus===
 +
Lazarus contient aussi des fonctions UTF8. Pour plus de détail, voir [[LCL Unicode Support]]
  
 
==Voir aussi==
 
==Voir aussi==
Line 89: Line 92:
 
* [[LCL_Unicode_Support/fr#Travailler_avec_les_r.C3.A9pertoires_et_les_noms_de_fichier|Travailler avec les répertoires et les noms de fichiers]] - Fonctions UTF8 pour les fichiers
 
* [[LCL_Unicode_Support/fr#Travailler_avec_les_r.C3.A9pertoires_et_les_noms_de_fichier|Travailler avec les répertoires et les noms de fichiers]] - Fonctions UTF8 pour les fichiers
 
* [[LCL_Unicode_Support/fr|Support de l'Unicode par la LCL]] - UTF8 dans les applications graphiques
 
* [[LCL_Unicode_Support/fr|Support de l'Unicode par la LCL]] - UTF8 dans les applications graphiques
* [[Console_Mode_Pascal#Unicode (UTF8) output|Console mode Pascal: Unicode (UTF8) output]] - montrant des sorties UTF8 de programmes en mode console/ mode texte
+
* [[Console_Mode_Pascal#Unicode (UTF8) output|Console mode Pascal: Unicode (UTF8) output]] - Sorties UTF8 de programmes en mode console/ mode texte
 +
* [[UTF8_strings_and_characters|Chaînes et caractères UTF8]]
  
[[Category:Unicode]]
+
[[Category:Unicode/fr]]

Latest revision as of 21:05, 9 November 2016

English (en) suomi (fi) français (fr) русский (ru)

UTF-8 (8-bits UCS/Unicode Transformation Format) est un encodage des caractères en longueur variable pour l'Unicode. Les caractères Unicode allant de U+0000 à U+007F sont encodés simplement comme les octets correspondants de 00h à 7Fh. Cela signifie que les fichiers et les chaînes qui contiennent seulement des caractères ASCII 7-bits ont le même encodage à la fois en ASCII et en UTF-8.

Tous les caractères > U+007F sont encodés comme une séquence de plusieurs octets, dont chacun a les 2 bits les plus significatifs de mis. Aucune séquence d'octets d'un caractère n'est contenue dans une séquence d'octets plus longue d'un autre caractère. Cela permet des recherches rapides de sous-chaînes. Le premier octet d'une séquence multi-octet qui représente un caractère non ASCII est toujours dans l'intervalle de C0h à FDh et il indique combien d'octets suivent pour ce caractère. Tous les autres octets de la séquence multi-octet sont dans l'intervalle 80h à BFh. Cela permet des resynchronisations rapides et de la robustesse.

Séquence d'octets UTF-8
  Points de code 1er byte 2ème byte 3ème byte 4ème byte Bit le plus significatif du 1er octet d'une séquence multi-octet
  U+0000..U+007F   00..7F   0   ASCII  
  U+0080..U+07FF   C2..DF   80..BF   110   - Caractères UTF-8 Latin
 
  U+0800..U+0FFF   E0   A0..BF   80..BF   1110
  U+1000..U+FFFF   E1..EF   80..BF   80..BF   1110
  U+10000..U+3FFFF   F0   90..BF   80..BF   80..BF   11110
  U+40000..U+FFFFF   F1..F3   80..BF   80..BF   80..BF   11110
  U+100000..U+10FFFF   F4   80..BF   80..BF   80..BF   11110

Fonctions UTF8

FreePascal

L'unité System contient quelques fonctions basiques:

  • UnicodeToUtf8
  • Utf8ToUnicode
  • UTF8Encode
  • UTF8Decode
  • AnsiToUtf8
  • Utf8ToAnsi

Lazarus

Lazarus contient aussi des fonctions UTF8. Pour plus de détail, voir LCL Unicode Support

Voir aussi