Unicode

調べていたらこんがらがってきたのでまとめ。

Unicode : The universal character encoding

(昔は)16bitに全ての文字を詰め込もうとした文字集合。当然65536字に全世界の文字が収まるはずはないのでHan Unificationという漢字統合作業をして無理やり詰め込んだ。

(今は)文字コード?UTFの総称?UCS-2の別名?なんか場所によって色々言われててよくわらん。教えてエロイ人。Unicode公式のFAQでは"Unicode is the universal character encoding, maintained by the Unicode Consortium"ってことで符号化方式だし、"What is Unicode?"では"Unicode provides a unique number for every character"ってことは文字集合だし、やっぱりよくわからん。

一般的にプログラミング言語等で言われるUnicodeUTF-16っぽい。

UCS : Universal Character Set

ISO/IEC 10646っつー名前で規定されている文字集合(Character Set)。各文字に通し番号がついてるので文字コードとしても使おうと思えば使えるだけ、という認識でいいのか…?

  • UCS-4
    • Universal Character Set coded in 4 octets.
  • UCS-2
    • Universal Character Set coded in 2 octets, Javaの内部表現?

UTF : Unicode or UCS Transformation Format

文字符号化方式(Character Encoding)。まぁUCS-4からの(文字集合指定)符号化方式なので文字コードといってもいいと思う。各文字はそれぞれ7/8/16/32bitを最小基本単位とした可変bit。