String Encoding/de

From Free Pascal wiki

Um ein einzelnes Zeichen darzustellen gibt es die Möglichkeiten es mit einem oder mehreren Zeichen zu codieren.
Die Kodierung mit mehreren Zeichen ist dann nötig, wenn es Schriftsysteme gibt, die mehr als 256 Zeichen haben.
Für diese Schriftsysteme werden die erweiterten UTF und UCS Kodierungen verwendet.


Der AnsiString entspricht der UTF-8 Kodierung.
Bei Windows und Linux entspricht der WideString der UTF-16 Kodierung.
Der UniCodeString entspricht der UCS2 Kodierung.
Bei einigen UNIX und evtl. auch bei einigen speziellen Systemen entspricht der WideString der UTF-32 bzw. UCS4 Kodierung.


Derzeit entsprechen sich die Kodierungen von UTF und UCS weitgehend. Eine Vereinheitlichung beider Kodierungen wird von den Gremien angestrebt.

Kodierung: Anzahl der Bits um ein darstellbares Zeichen zu codieren:

  • UTF-8 -> 8 Bit
  • UTF-16 -> 16 Bit
  • UTF-32 -> 32 Bit
  • UCS2 -> 16 Bit
  • UCS4 -> 32 Bit


Beispiele für Betriebsysteme und die von ihnen unterstützten Stringkodierungen:
Windows unterstützt UTF-8 und UTF-16 Strings.
Linux unterstützt UTF-16 Strings.

(Details und Sonderfälle bei den Kodierungen werden hier wegen der Übersichtlichkeit und des leichteren Verständnisses nicht behandelt.)

--Olaf 17:08, 7 September 2012 (UTC)