Unicode character set

もう一回ひっぱる。これで最後。 http://vim-users.jp/2009/07/hack40/ でいわゆる全角スペースを IdeographicSpace と定義していたのでちょいと気になって調べてみた結果 Unicode Consortium で定義している名前らしい。定義している部分をちょっと探してみたんだけど http://unicode.org/charts/#symbols の CJK Symbols and Punctuation という anchor から落とせる pdf に書いてあった。 online で簡単に参照できるといいんだけど文字数の関係上そういうわけにもいかないのかな。

とりあえず定義も確認できたということで今まで DoubleWidthSpace と書いていたところを IdeographicSpace に置換。あとは TabSpace と書いてしまっているところも CharacterTabulation にしたほうがいいかなとちょっと悩んだけど tab space の可視化はやめるかもしれないので保留。

で、今後のためにいろいろ落として local に置いておく。大体以下のもので足りるかな ( list は上記 page に書いてある anchor 名 ) 。見繕うのに wikipedia:Unicode を参照。

  • Latin
  • General Punctuation
  • Number forms
  • Arrows
  • Mathematical Operators
  • Enclosed Alphanumeric
  • Box Drawing
  • Block Elements
  • (CJK Radicals Supplement)
  • (CJK Radicals)
  • CJK Symbols and Punctuation
  • Hiragana
  • Katakana
  • Enclosed CJK Letters and Months
  • CJK Compatibility
  • CJK Unified Ideographs
  • CJK Compatibility Ideographs
  • Fullwidth ASCII Digits

余談だけど以下の character set がおもしろい。定義されてるってだけじゃなくて font の support もできているようで MS Gothic と VL Gothic でちゃんと表示されるのを確認。全体的に VL Gothic のほうがかっこいいかな ?

  • Miscellaneous Technical
  • Miscellaneous Symbols
  • Dingbats

他にも何に使うんだと思うものも混じってて ( Tags とか ) まさに chaos 。いや体系立ててるんだろうけど文化が違うと意味わかんないの多いわー。