Character and string types/fr

From Free Pascal wiki
Jump to navigationJump to search

Deutsch (de) English (en) español (es) français (fr) русский (ru) 中文(中国大陆)‎ (zh_CN)

Free Pascal supportes plusieurs types de caractères et de chaînes. Il s'étendent du simple caractère ANSI aux chaînes Unicode et incluent aussi les types pointer. Les différence s'appliquent aussi aux encodages et au comptage de référence.


Une variable de type AnsiChar, aussi mentionnée comme char, a une taille d'exactement un octet et contient un caractère ANSI.




Une variable du type WideChar, aussi mentionnée commeUnicodeChar, est exactement d'une taille de 2 octets, et contient une partie des caractères Unicode dans l'encodage UTF-16. Note : il est impossible d'encodes tous les points de code Unicode dans 2 octets. En conséquence, 2 WideChars pourraient être nécessaires pour encoder un simple point de code.



Tableau de Char

Les premières implémentations de Pascal, utilisées avant 1978, ne supportaient pas le type chaîne (exception faite des constantes chaînes). La seule possibilité pour stocker des chaînes dans des variables consistaient à utiliser des tableaux de char. Cette approche a de nombreux inconvénients et n'est plus recommandée. C'est néanmoins toujours supporté pour assurer la compatibilité descendante avec l'ancien code.

Tableau de Char statique

  TOldString4 = array[0..3] of char;
  aOldString4: TOldString4; 
  aOldString4[0] := 'a';
  aOldString4[1] := 'b';
  aOldString4[2] := 'c';
  aOldString4[3] := 'd';

Le tableau de char statique contient dorénavant:

a b c d
Light bulb  Remarque: Les chars non affectés contiennent n'importe quoi, en fonction de ce qui se trouvait en mémoire quand la mémoire pour le tableau est devenue disponible (le contenu du tableau n'est pas initialisé).

Tableau de Char dynamique

  aOldString: Array of Char; // pas de dimension!!
  SetLength(aOldString, 5);
  aOldString[0] := 'a';
  aOldString[1] := 'b';
  aOldString[2] := 'c';
  aOldString[3] := 'd';

Le tableau de char dynamique contient dorénavant:

a b c d #0
Light bulb  Remarque: Les chars non affectés dans les tableaux dynamiques contiennent des #0, parce que les positions vides de tous les tableaux dynamiques sont dès le départ initialisées avec 0 (ou #0, ou nil, ou ...)


Une variable de type PChar est simplement un pointeur vers un type Char, mais permet des opérations supplémentaires. Les PChars peuvent être utilisé pour accéder à des chaînes C à zéro terminal, par exemple en interaction avec certaines API systèmes ou des logiciels tierce partie.

a b c #0



Une variable de type PWideChar est un pointeur vers une variable WideChar.

a b c #0 #0



Le type String peut faire référence à ShortString or AnsiString, selon la bascule {$H}. Si la bascule est off ({$H-}) alors toute déclaration string va définir une ShortString. Sa taille sera de 255 caractères, si elle n'est pas spécifiée autrement. Si la bascule est on ({$H+}) string sans spécifier la taille va définir une AnsiString, sinon une ShortString avec une taille spécifiée.



Les chaînes courtes ont une taille maximale de 255 caractères avec la page de code CP_ACP implicite. La longueur effective de la chaîne est conservée dans le caractère à l'index 0.

#3 a b c



Ansistrings or UTF8Strings are strings that have no length limit. They are reference counted and are guaranteed to be null terminated. Internally, a variable of type AnsiString is treated as a pointer: the actual content of the string is stored on the heap, as much memory as needed to store the string content is allocated.

a b c #0
RefCount Length



Like AnsiStrings, UnicodeStrings are reference counted, null-terminated arrays, but they are implemented as arrays of WideChars instead of regular Chars.

Light bulb  Remarque: The UnicodeString naming is a bit ambiguous but probably due to its use in Delphi on Windows, where the OS uses UTF16 encoding; it's not the only string type that can hold Unicode string data (see also UTF8String)...
a b c #0 #0
RefCount Length



Currently, the type UTF8String is an alias to the type AnsiString. It is meant to contain UTF8 encoded strings (i.e. unicode data ranging from 1..4 bytes per character). UTF8String is the default string in Lazarus and LCL.



The type UTF16String is an alias to the type WideString. In the LCL unit lclproc it is an alias to UnicodeString.



Variables of type WideString (used to represent unicode character strings in COM applications) resemble those of type UnicodeString, but unlike them they are not reference-counted. On Windows they are allocated with a special windows function which allows them to be used for OLE automation.

WideStrings consist of COM compatible UTF16 encoded bytes on Windows machines (UCS2 on Windows 2000), and they are encoded as plain UTF16 on Linux, Mac OS X and iOS.

a b c #0 #0



A variable of type PShortString is a pointer that points to the first byte of a ShortString-type variable (which defines the length of the ShortString).

#3 a b c



Variables of type PAnsiString are pointers to AnsiString-type variables. However, unlike PShortString-type variables they don't point to the first byte of the header, but to the first char of the AnsiString.

a b c #0
RefCount Length ^



Variables of type PUnicodeString are pointers to variables of type UnicodeString.

a b c #0 #0
RefCount Length ^



Variables of type PWideString are pointers. They point to the first char of a WideString-typed variable.

a b c #0 #0
Length ^


See also