アップル インコーポレイテッド
アプリケーションソフトウェア
アラビア文字
アラム文字
アルメニア文字
ウォン
ウガリト文字
エイプリルフール
エスケープシーケンス
エチオピア文字
エンディアン
オガム文字
オペレーティングシステム
オリヤー文字
オルチキ文字
カナダ先住民文字
カローシュティー文字
カンナダ文字
キリル文字
ギリシア文字
クメール文字
グジャラーティー文字
グラゴル文字
グルジア文字
グルムキー文字
コプト文字
コンピュータ
コードページ
ゴート文字
サロゲート (映画)
サン・マイクロシステムズ
シェアウェア
シリア文字
シンド語
シンハラ文字
ジャストシステム
スターマーク
ゼロックス
タイ文字
タガログ文字
タミル文字
ターナ文字
ダイアクリティカルマーク
チェロキー文字
チベット文字
テキストエディタ
テルグー文字
デーヴァナーガリー
トランプ
ドミノ
ハングル
ハングル#.E3.83.8F.E3.83.B3.E3.82.B0.E3.83.AB.E5.A4.A7.E7.A7.BB.E5.8B.95
バイトオーダーマーク
バイト順マーク
バイト (情報)
バタク文字
バックスラッシュ
バムン文字
バリ文字
パスパ文字
パフラヴィー文字
ヒエログリフ
ヒューレット・パッカード
ビッグエンディアン
ビット
ビルマ文字
ファイストスの円盤
フェニキア文字
フォント
フリーウェア
ブラーフミー文字
ヘブライ文字
ベンガル文字
マイクロソフト
マラヤーラム文字
マルチバイト文字
メインページ
メモ帳
モンゴル文字
モールス符号
ユニコードコンソーシアム
ユーロ記号
ラテン文字
ラーオ文字
ラーンナー文字
リス文字
リトルエンディアン
ルーン文字
ロロ文字
ワイド文字
ワード
ンコ文字
ヴァイ文字
中国語
中西亮
今昔文字鏡
光学文字認識
全角と半角
六十四卦
円記号
アプリケーションソフトウェア
アラビア文字
アラム文字
アルメニア文字
ウォン
ウガリト文字
エイプリルフール
エスケープシーケンス
エチオピア文字
エンディアン
オガム文字
オペレーティングシステム
オリヤー文字
オルチキ文字
カナダ先住民文字
カローシュティー文字
カンナダ文字
キリル文字
ギリシア文字
クメール文字
グジャラーティー文字
グラゴル文字
グルジア文字
グルムキー文字
コプト文字
コンピュータ
コードページ
ゴート文字
サロゲート (映画)
サン・マイクロシステムズ
シェアウェア
シリア文字
シンド語
シンハラ文字
ジャストシステム
スターマーク
ゼロックス
タイ文字
タガログ文字
タミル文字
ターナ文字
ダイアクリティカルマーク
チェロキー文字
チベット文字
テキストエディタ
テルグー文字
デーヴァナーガリー
トランプ
ドミノ
ハングル
ハングル#.E3.83.8F.E3.83.B3.E3.82.B0.E3.83.AB.E5.A4.A7.E7.A7.BB.E5.8B.95
バイトオーダーマーク
バイト順マーク
バイト (情報)
バタク文字
バックスラッシュ
バムン文字
バリ文字
パスパ文字
パフラヴィー文字
ヒエログリフ
ヒューレット・パッカード
ビッグエンディアン
ビット
ビルマ文字
ファイストスの円盤
フェニキア文字
フォント
フリーウェア
ブラーフミー文字
ヘブライ文字
ベンガル文字
マイクロソフト
マラヤーラム文字
マルチバイト文字
メインページ
メモ帳
モンゴル文字
モールス符号
ユニコードコンソーシアム
ユーロ記号
ラテン文字
ラーオ文字
ラーンナー文字
リス文字
リトルエンディアン
ルーン文字
ロロ文字
ワイド文字
ワード
ンコ文字
ヴァイ文字
中国語
中西亮
今昔文字鏡
光学文字認識
全角と半角
六十四卦
円記号
サロゲートは、この項目へ転送されています。2009年の映画については「サロゲート (映画)」をご覧ください。
Unicode
符号化方式
UTF-7
UTF-8
CESU-8
UTF-16/UCS-2
UTF-32/UCS-4
UTF-EBCDIC
SCSU
Punycode (IDN/IDNA)
GB 18030
その他
UCS
マッピング
書字方向
BOM
漢字統合
UnicodeとHTML
Unicodeと電子メール
Unicodeフォント
Unicode (ユニコード) とは、世界中の多くのコンピュータ上の文字列を一貫した方法で符号化し、表現し、扱うためのコンピュータ業界の標準である。 1980年代に提唱された。
ゼロックス社が提唱し、マイクロソフト、アップル、IBM、サン・マイクロシステムズ、ヒューレット・パッカード、ジャストシステムなどが参加するユニコードコンソーシアムにより作られた。1993年にISOでもISO/IEC 10646の一部として標準化されたが、Unicodeと完全に同一の規格ではない[1]。
目次
1 概要
2 文字集合
3 エンコーディング(符号化方式)
4 拡張領域
4.1 サロゲートペア(代用対)
4.2 拡張領域に含まれる文字
5 歴史
5.1 各バージョンとその特徴
5.2 構成要素のバージョン
6 Unicodeの諸問題
6.1 バージョンごとの非互換性
6.2 日本語環境でのUnicodeの諸問題
6.2.1 YEN SIGN 問題
6.2.2 波ダッシュ・全角チルダ問題
7 一覧
8 脚注
9 参考資料
10 関連項目
11 外部リンク
編集 概要
Unicode は世界で使われる全ての文字を共通の文字集合にて利用できるようにしようという考えで作られ、NT系のMicrosoft Windows (Windows)、Mac OS X、LinuxやJavaなどで利用されている。
元々16ビットの文字集合で全ての文字の網羅を目指して開発されたが、符号位置が圧倒的に足りなくなり、Unicode 2.0以降では、21ビットの文字集合として規定されることとなった。当初の16ビットの領域は基本多言語面 (BMP) と呼ばれ、ISO/IEC 10646においてUCS-2で定義される範囲と同一である。ISO/IEC 10646におけるUCS-4は31ビットの文字集合であり、21ビットのUnicodeとは別物である。
Unicodeの文字を表現する場合、"U+"にその文字の符号位置を表す16進数の値を続ける。この値をコードポイントと言う。 BMP はU+0000 - U+FFFF の 4 桁に対応し、21 ビットの空間は U+0000 - U+10FFFF であり、必要に応じて 5、6 桁で表す。
収録されている文字は、各国で標準として規定されている文字集合や実際に使用されている文字を持ち寄り、委員会により取捨選択されている。日本の文字については当初より JIS X 0201、JIS X 0208 と JIS X 0212 を、Unicode 3.1 では JIS X 0213 の内容を収録している。
また収録においては同じ意味・目的の文字は、できる限り同じ符号位置に割り当てる方針を取っている。そのため、CJK統合漢字(中国語、日本語、朝鮮語で使用される漢字が統合された領域)は大きな議論となった。各国のコードはISO/IEC 10646とは別の組織で標準化されているため、厳密には違うものであるが、符号位置を共有する文字の間で非互換が生じないように慎重に標準化が進められている。
既存の符号化方式との相互運用性もある程度考慮されており、同じグリフ(字形)の文字であっても、歴史上・実用上の識別が求められる場合には互換領域がとられ、Unicodeを介在して文字コード変換を行った際に、復元可能となるように考慮されている。しかしながら、他の符号化文字集合(文字符号化方式)との変換の整合性においては、いくつかの問題がある。たとえば、CP51932とeucJP-MSのように既存文字コード同士でUnicodeとの対応が一部違うために文字化けが発生することがある。
編集 文字集合
Unicodeに収録されている文字については、下に記載した一覧の「コード順分類一覧」を参照。
編集 エンコーディング(符号化方式)
ISO/IECの規格が定めている符号化方式については、ISO/IEC 10646#文字集合のサブセットおよびISO/IEC 10646#文字符号化方式を参照
UTF-7
UTF-16 (後述)で表したUnicodeをBase64で変換して表す符号化方式。ただし、ASCIIのアルファベット範囲等についてはBase64に変換しない等、特殊な符号化スキームを行う。RFC 2152で定められており、Unicode標準及びUnicodeの関連仕様には含まれない。かつてのSMTP等のように、7ビット単位でしかデータを扱えない通信方式を利用する場合を想定して作られている。ステートフルエンコーディングであり、運用上問題が多いため、現在ではこの方式は推奨されていない。Unicode文字を7ビット単位伝送通信にどうしても通さなければならない場合は、替わりにUTF-8をQuoted-printableあるいはBase64で変換するなどの方式が好ましいとされる。
UTF-8(UTF-2、UTF-FSS)
可変長(1〜4バイト)の8ビット符号単位で表現する文字符号化形式及び文字符号化スキーム。ASCIIに対して上位互換となっており、文字の境界が明確である、UTF-16符号化スキームやUTF-32符号化スキームとの変換・逆変換に際して乗除算などの負荷の高い処理が必要ないなどの特長を持ち、インターネットではもっとも一般的に利用されている。
UTF-8符号化スキームについて、日本国内でのみバイト順マーク (BOM) がついているものをUTF-8、ついていないものをUTF-8Nとして区別することがあるが、国際的には認知されていない。もともと8ビットを符号単位とするUTF-8ではBOMを付与する必要はないが、UTF-8であることが識別できるようにデータストリームの先頭に EF BB BF (U+FEFFのUTF-8での表現) の3バイトが付与されることがある。Windowsのメモ帳で作成した「Unicodeテキスト」にはBOMが付与される。Internet Explorerでは、BOMのついていないUTF-8の文書を読み込むと(日本語版の場合)Shift_JISだと誤認する一方で、BOMがついていると有効なデータとして受け付けないアプリケーションも存在する。UTF-8のBOMはバイト順を表すものではなく、UTF-16符号化スキーム等における「真の意味でのBOM」と類似する存在であるがゆえに慣用的にこう呼ばれているに過ぎない。
UTF-16
BMP文字を16ビット符号単位一つで、その他の文字をサロゲートペア(代用対)という仕組みを使い16ビット符号単位二つで表現する文字符号化形式及び文字符号化スキーム。Windows XPなどの近年のOSの内部では、UTF-16符号化形式が使われている。UCS-2ともBMPの範囲で互換性がある。
UTF-16符号化スキームでは、通常はファイルの先頭にバイト順マーク (BOM) が付与される。BOMとは、通信やファイルの読み書き等、8ビット単位の処理でバイト順を識別するための印であり、データストリームの先頭に付与される。値はU+FEFF。システムが読み込んだ先頭2バイトが0xFF,0xFEならリトルエンディアン、0xFE,0xFFならビッグエンディアンとして後に続く文書を処理する。
RFC 2781 ではBOMが付いていないUTF-16文書はビッグエンディアンとして解釈することになっている。Windowsのメモ帳で作成した「Unicodeテキスト」はBOMが付与されるようになっている。ビッグエンディアンの符号化スキームをUTF-16BE、リトルエンディアンの符号化スキームをUTF-16LEとして区別することもある。プロトコル若しくはアプリケーションの設定などの手段で符号化スキームにUTF-16BEやUTF-16LEを指定している場合にはBOMを付与することは許容されない(ZERO WIDTH NON-BREAKING SPACEとして扱う)。Windows上の文書における「Unicodeテキスト」は特に明記のない場合、リトルエンディアンのUTF-16符号化スキームのことを指す。TCP/IPネットワークではプロトコルヘッダやMIME等の手段で符号化スキームが指定されずBOMも付与されない場合、ビッグエンディアンに決められている(→ エンディアン)。
UTF-32 (Unicode 3.1より)
Unicodeのすべての符号位置を単一長の符号単位として32ビットで表現する文字符号化形式及び文字符号化スキーム。実際に使われるのは21ビット(Unicodeの符号空間がU+10FFFFまでであるため)。この21ビットの範囲内ではUCS-4と互換性がある。UTF-32符号化スキームでもUTF-16符号化スキームと同じく、ビッグエンディアンとリトルエンディアンが存在し、それぞれUTF-32BE、UTF-32LEと呼ばれる。プロトコル若しくはアプリケーションの設定などの手段で符号化スキームにUTF-32BEやUTF-32LEを指定している場合にはBOMを付与することは許容されない(ZERO WIDTH NON-BREAKING SPACEとして扱う)。単純な符号化スキームであるが、テキストファイルなどではファイルのサイズが大きくなるため(全てBMPの文字からなる文章の場合はUTF-16符号スキームの2倍のサイズとなる)使用されることは稀である。そのためかMicrosoft Officeでの「エンコードされたテキストファイル」の読み書きはこの符号化スキームには未だ対応していない。フリーウェアおよびシェアウェアの多数の符号化スキームに対応しているテキストエディタでもこの符号化スキームには対応していないものは多い。ただしすべてのUnicodeを扱う処理を行う場合には、すべての文字を単一の符号単位で表現したほうが処理に適するため、内部の処理ではUTF-32符号化形式(あるいはUCS-4)で扱うことも多い。
UTF-16符号化スキームなどと同様にUTF-32符号化スキームにもBOMがあり、データストリームの先頭に付される。先頭の4バイトが0xFF,0xFE,0x00,0x00ならリトルエンディアン、0x00,0x00,0xFE,0xFFならビッグエンディアンになる。UTF-16のリトルエンディアンとUTF-32のリトルエンディアンは最初の2バイトが等しいため、4バイトまで読んで判断する必要がある。
以下はエイプリルフールに公開されたジョークRFCである。UTF-9に関しては同名の規格が実際に検討されていたが、ドラフト段階で破棄されているため重複にはならない。
UTF-9
可変長の9ビット符号単位で表現する符号化方式。1バイトが8ビット(オクテット)ではなく9ビット(ノネット)であるような環境での利用を想定している。UTF-8と比較した場合、Latin-1領域が1バイト、CJK統合漢字領域が2バイトで表現できる特長があり、データ量が少なくなる。ワード長が9の倍数のコンピュータ(ACOS-6など)であれば計算コストも低い。
UTF-18
Unicode符号位置を単一の18ビット符号単位で表現する符号化方式。UTF-8に対するUTF-16のようなものだが、RFC公開時点のUnicodeで文字が定義されていた4つの面を余った2ビットで識別するため、代用符号位置は使わない。
以下はドラフト段階で破棄された規格案。
UTF-5
国際化ドメイン名での利用を想定し、0〜9、A〜Vの32文字で表現する文字符号化スキーム。国際化ドメイン名にはPunycodeが採用されたため、利用されていない。
UTF-9
可変長コード(1〜5バイト)の8ビット符号単位で表現する文字符号化形式または文字符号化スキーム。ISO-8859-1に対して一部互換である。しかし、UTF-8が普及しつつあり、それと比べて欠点がいくつかあったため、破棄された。
編集 拡張領域
編集 サロゲートペア(代用対)
Unicodeでは代用対をサロゲートペア(英: Surrogate Pair)の日本語表記としている。
Unicodeは 216 = 65,536 種類の文字を収録でき、当初の構想では世界中のすべての文字をこの16ビット固定長のコード体系に登録可能と思われていた。だが、Unicode 1.0公表後、拡張可能な空き領域2万字分を巡り、各国から文字追加要求が起こった。その内容は中国、日本、台湾、ベトナム、シンガポールの追加漢字約1万5千字、古ハングル約5千字、未登録言語の文字等々である。このため、Unicodeの16ビット枠内に全世界の文字を収録するという計画は早々に破綻し、1996年、Unicode 2.0ではサロゲートペア(代用対)の拡張が盛り込まれた。
サロゲートペア(代用対)は16ビットUnicodeの未定義領域1024文字分を2つ使い(前半0xD800〜0xDBFF, 後半0xDC00〜0xDFFF)、それをペアにすることで1文字を表し (1024 × 1024 = 1,048,576文字)、その1,048,576文字を256 × 256の区点 (row, cell) からなる「面」 (plane) に順番に割り振っていく。これにより 1,048,576 / (256 × 256 = 65,536) = 16 で、全部で第16面までの文字を収録することができる。つまり第01面から第16面までであり、これに加えて第00面 (BMP) も使用可能なので、合計で 1,048,576 + 65,536 - 2,048 = 111万2,064文字が使用可能になる。エスケープシーケンスこそ使用しないものの、16ビット文字コード体系との互換性を維持するために、UTF-16(16ビットを符号単位とする文字符号化形式)を採用した結果、Unicodeは16ビット符号単位一つと16ビット符号単位二つ(合計32ビット)が混在する複雑な可変長文字コードとなってしまった。
サロゲートペア(代用対)の方式は16ビット固定長を志向したUTF-16との互換性維持のために設けられた拡張であり、UTF-8やUTF-32では利用できない。
編集 拡張領域に含まれる文字
現在第1面はSupplementary Multilingual Plane(SMPと略される。追加多言語面。主に古代文字が収録されている。)、第2面はSupplementary Ideographic Plane(SIP, 追加漢字面。漢字専用領域。)、第14面はSupplementary Special-purpose Plane(SSP, 追加特殊用途面。制御コード専用領域。)、第15面および第16面は私用面(BMPのU+E000〜U+F8FFの領域の拡張)と決められている。また、第3面はTertiary Ideographic Plane(直訳すると第三の漢字面)で、2009年3月現在では1字も収録されていないが、古代漢字や甲骨文字が収録される予定である。
第4面〜第13面は未使用で将来どのような目的で使用するのかすら決まっていない。
日本では2000年にJIS X 0208を拡張する目的でJIS X 0213(いわゆるJIS第3第4水準)が制定されたが、この際、新たに採用された文字でUnicodeに無かったものの一部は、BMPに収録できず、第2面への収録となった(最終対応は2002年)。このため、JIS X 0213収録文字をUnicodeで完全にサポートするには追加漢字面をサポートしたOS、フォント、アプリケーションが必要となる。Shift_JIS等、Unicodeにて規定されるもの以外のエンコーディングを利用する場合であっても、JIS X 0213に対応するフォントやアプリケーションが必要なことは言うまでもない。
編集 歴史
1984年、ISOの文字コード規格委員会 (ISO/TC 97/SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える文字コード規格 (ISO 10646) を作成することを決定し、専門の作業グループ (ISO/TC 97/SC 2/WG 2) を設置し、作業を始めていた。1980年代後半にはこの作業グループにおいてさまざまな提案が検討されている。1990年になって出来あがったISO/TC 97/SC 2/WG 2作成のISO 10646の初版ドラフトDIS (Draft International Standard) では、漢字コードは32bitで表現され、各国の漢字コードはそのまま入れることになった。しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、今後の漢字コードの方針を決めるため、WG 2は CJK-JRG (Joint Research Group) と呼ばれるグループを別途設置し、そこで引き続き検討することにした。
このような公的機関の動きとは別に、1987年頃からXeroxのJoe BeckerとLee Collinsは、後にユニコードと呼ばれるようになる世界中の文字を統一して扱える文字コードを開発していた。1989年9月には「Unicode Draft 1」が発表された。ここではその基本方針として、2オクテット(16ビット)固定長で全ての文字を扱えることを目指しており、そのために日本・中国・韓国の漢字を統一することで2万弱の漢字コードを入れ、さらに将来の拡張用に、3万程度の漢字の空き領域が別に用意されていた。このドラフトは少しずつ改良を加えられながら1990年4月にUnicode Draft 2、同年12月 Unicode Final Draftとなった。さらに1991年1月にはこのUnicode Final Draftに賛同する企業によって、ユニコードコンソーシアムが設立された。
1991年6月、ISO/IEC 10646による4オクテット固定長コードを主体としたドラフト「DIS 10646第1版」は、2オクテット固定長コードであるUnicodeとの一本化を求める各国により否決され、ISO 10646とUnicodeの一本化が図られることになった。また中国およびUnicodeコンソーシアムの要請により、CJK-JRGにおいて、ISO 10646とUnicodeの一本化が図られることになった。CJK-JRGは各国の漢字コードに基づき独自の統合規準を定め、ISO 10646 / Unicode用の統合漢字コード表を作成することになった。CJK-JRGの会合は第1回が7月22日から24日にかけて東京で、第2回の会合が9月17日から19日にかけて北京で、第3回が11月25日から29日にかけて香港で開催された。これらの討議の結果1991年末になって「ISO 10646=Unicode」用の統合漢字コード表が Unified Repertoire and Ordering (URO)の第1版として完成した。
Unicodeの最初の印刷されたドキュメントであるUnicode 1.0は、統合漢字表の完成に先行して漢字部分を除いたUnicode 1.0, Vol.1が1991年10月に出版され、後に1992年になって漢字部分だけのUnicode 1.0, Vol.2が出版された。
1992年CJK統合漢字Unified Repertoire and Ordering (URO) 第二版が完成し、これを取り込んだ(ただしUROには若干の間違いが発見されており、それらの修正が行われている。)DIS 10646第2版が5月30日国際投票の結果可決された。
1993年5月1日 「ISO/IEC 10646-1: 1993 Universal Multiple-Octet Coded Character Set (UCS) -- Part 1: Architecture and basic Multilingual Plane」が制定される。同年翌6月にUnicode 1.0は ISO/IEC 10646-1:1993にあわせた変更を行いUnicode 1.1となり、以後ユニコードとISO/IEC 10646とは歩調を合わせて改訂されていくことになる。
編集 各バージョンとその特徴
ユニコードのバージョンは、メジャーバージョン(the major version)、マイナーバージョン(the minor version)、アップデートバージョン(the update version)の三つの部分から構成され、ピリオドでつなげて表示される。但しマイナーバージョン及びアップデートバージョンについては0の場合には省略して表示されることもある。メジャーバージョンはレパートリーの追加のような重要な変更が行われたときにされる。ユニコードのドキュメントは書籍形態と電子版ドキュメント形態の両方で公表され、どちらもユニコードについての正式なドキュメントであるとされており、新たなバージョンがリリースされたときは新たなドキュメントが公表されるが、書籍として刊行されるのはメジャーバージョンが改定された場合のみである。書籍版のバージョン1.0は、2巻に分けて刊行され、統合漢字部分を除いた第1巻は1991年10月に、統合漢字部分の第2巻は1992年6月に刊行された。そのため第1巻のみのものをUnicode 1.0.0、第2巻を含めたものをUnicode 1.0.1と呼ぶことがある。
年
バージョン
収録文字数
概要
日本語における主要な追加文字
1991年10月
Unicode 1.0.0
7,161
初期バージョン、16ビットの文字コード
JIS X 0201
1992年6月
Unicode 1.0.1
28,359
CJK統合漢字を導入
JIS X 0208、JIS X 0212
1993年6月
Unicode 1.1
34,233
ISO/IEC 10646-1:1993にあわせ変更
1996年7月
Unicode 2.0
38,950
ISO/IEC 10646-1:1993の追補Amd.1からAmd.7に対応。ハングルの大移動を行いUnicode1.xとの互換性を失う(Amd.5)、サロゲートペア(代用対)を導入し追加面を可能にして収容可能な文字を大幅に増やす、21ビット領域に拡張(Amd.1)
1998年5月
Unicode 2.1
38,952
ユーロ記号と正誤表を追加
1999年9月
Unicode 3.0
49,259
ISO/IEC 10646-1:2000が発行されるまでの追補Amd.8からAmd.31の文字すべてに対応。CJK統合漢字の拡張Aで漢字6582字を追加(Amd.17)
地名や人名などに用いられる漢字
2001年3月
Unicode 3.1
94,205
ISO/IEC 10646-2:2001に対応。BMP以外の拡張。CJK統合漢字の拡張Bで漢字42711字を追加し、JIS X 0213一部対応
地名や人名などに用いられる漢字
2002年3月
Unicode 3.2
95,221
ISO/IEC 10646-1:2000の追補Amd.1に対応。JIS X 0213正式対応
2003年4月
Unicode 4.0.0
96,447
ISO/IEC 10646:2003に対応
2005年3月
Unicode 4.1.0
97,720
ISO/IEC 10646:2003の追補Amd.1に対応
2006年7月
Unicode 5.0.0
99,089
ISO/IEC 10646:2003の追補Amd.2とシンド語(Amd.3に含まれる)に対応
2008年4月4日[2]
Unicode 5.1.0
100,713
ISO/IEC 10646:2003の追補Amd.3とAmd.4に対応。異体字セレクタを漢字に対して使い始める[3]
麻雀牌、割り算の記号、電話機の星印、Adobe-Japan1-6の漢字字形[4]
2009年10月
Unicode 5.2.0
107,361
ISO/IEC 10646:2003の追補Amd.6までに対応
ARIB外字
2010年10月
Unicode 6.0.0
109,449
ISO/IEC 10646:2010
携帯電話の絵文字
編集 構成要素のバージョン
ユニコードのバージョンには、上記のような「ユニコードの規格全体に付けられたバージョン」の他に「ユニコードを構成する個々の要素の規格に付けられたバージョン」が存在する。これに該当するものとしては、ユニコードを構成する各面ごとに付けられたバージョンやユニコードに収録されないこととされたスクリプトのリスト(NOR = Not The Roadmap)に付けられたバージョンなどが存在する。
日付
BMP[1]
SMP[2]
SIP[3]
TIP[4]
SSP[5]
NOR[6]
2001年10月10日
3.0[7]
3.0[8]
3.0[9]
1.0[10]
2001年10月12日
3.1[11]
2001年10月27日
3.1[12]
2001年11月27日
3.0[13]
2002年1月22日
3.2[14]
3.1[15]
2002年1月29日
3.3[16]
2002年2月5日
3.4[17]
2002年4月3日
3.2[18]
2002年4月4日
3.5[19]
2002年6月7日
3.6[20]
3.3[21]
2002年6月23日
3.7[22]
2002年10月2日
3.8[23]
2002年10月28日
3.9[24]
2002年11月11日
3.1[25]
2002年12月3日
3.10[26]
3.4[27]
3.5[28]
2002年12月11日
3.11[29]
2003年3月12日
3.12[30]
3.6[31]
2003年3月15日
3.7[32]
2003年4月16日
4.0[33]
4.0[34]
4.0[35]
4.0[36]
4.0[37]
2003年5月4日
4.1[38]
2003年5月16日
4.1[39]
2003年6月18日
4.2[40]
4.1[41]
2003年7月15日
4.1[42]
2003年8月19日
4.3[43]
2003年9月11日
4.4[44]
4.2[45]
2003年9月20日
4.5[46]
2003年10月22日
4.6[47]
2003年10月31日
4.3[48]
2003年12月23日
4.7[49]
4.4[50]
2004年5月27
4.5[51]
2004年6月24日
4.8[52]
4.6[53]
2004年7月3日
4.7[54]
2004年12月1日
4.1[55]
2005年1月27日
4.2[56]
2005年1月28日
4.9[57]
4.8[58]
2005年3月31日
4.10[59]
4.9[60]
2005年5月27日
4.10[61]
4.2[62]
2005年6月10日
4.11[63]
4.11[64]
2005年6月27日
4.12[65]
4.12[66]
4.3[67]
4.2[68]
4.3[69]
2005年8月1日
4.13[70]
4.13[71]
2005年9月6日
4.14[72]
2005年9月14日
4.15[73]
2005年9月17日
4.14[74]
2005年9月19日
4.16[75]
2005年12月8日
4.15[76]
2006年1月11日
4.17[77]
4.16[78]
2006年4月17日
4.18[79]
4.17[80]
4.4[81]
2006年4月28日
4.4[82]
2006年9月21日
5.0[83]
5.0[84]
5.0[85]
5.0[86]
5.0[87]
2006年9月29日
5.0.1[88]
5.0.1[89]
2007年3月14日
5.0.1[90]
2007年4月11日
5.0.2[91]
5.0.2[92]
2007年5月5日
5.0.3[93]
5.0.3[94]
2007年7月24日
5.0.4[95]
5.0.4[96]
5.0.1[97]
2007年8月22日
5.0.5[98]
2007年8月29日
5.0.5[99]
2008年1月15日
5.0.6[100]
2008年1月31日
5.0.6[101]
2008年2月14日
5.0.7[102]
5.0.7[103]
2008年4月4日
5.1.0[104]
5.1.0[105]
5.1.0[106]
5.1.0[107]
5.1.0[108]
2008年4月25日
5.1.1[109]
5.1.1[110]
5.1.0[111]
5.1.1[112]
2008年8月12日
5.1.2[113]
5.1.2[114]
2008年8月19日
5.1.3[115]
2008年10月17日
5.1.4[116]
5.1.3[117]
5.1.1[118]
2009年2月4日
5.1.5[119]
5.1.4[120]
2009年2月26日
5.1.1[121]
2009年4月22日
5.1.2[122]
2009年4月24日
5.1.5[123]
2009年10月1日
5.2.0[124]
5.2.0[125]
5.2.0[126]
5.2.0[127]
5.2.0[128]
5.2.0[129]
2009年11月18日
5.2.1[130]
2010年2月5日
5.2.1[131]
2010年2月10日
5.2.2[132]
2010年2月23日
5.2.3[133]
2010年4月23日
5.2.2[134]
5.2.4[135]
2010年5月12日
5.2.5[136]
2010年6月24日
5.2.6[137]
2010年7月27日
5.2.7[138]
2010年10月11日
6.0.0[139]
6.0.0[140]
6.0.0[141]
6.0.0[142]
6.0.0[143]
6.0.0[144]
2010年12月6日
6.0.1[145]
2011年1月9日
6.0.2[146]
2011年1月14日
6.0.1[147]
2011年1月27日
6.0.2[148]
6.0.3[149]
6.0.1[150]
6.0.1[151]
6.0.1[152]
6.0.1[153]
2011年3月18日
6.0.4[154]
2011年5月24日
6.0.5[155]
編集 Unicodeの諸問題
編集 バージョンごとの非互換性
Unicodeは同一のコードでもバージョンが変わったとき完全に異なった文字を定義し直したことがある。
最も有名な事象がUnicode 2.0での「ハングルの大移動」である。これはUnicode 1.1までで定義されていたハングルの領域を破棄し、新しいハングルの領域を別の位置に設定し、破棄された領域には別の文字の領域を割り当てることとなった。その後、Unicode 3.0でCJK統合漢字拡張Aが割り当てられた。このように、Unicode 1.1以前でハングルを記述した文書とUnicode 2.0以降でCJK統合漢字拡張Aを記述した文書には互換性がない[5]。これについて芝野耕司は「韓国のとった滅茶苦茶な行動」と評している[6]。
編集 日本語環境でのUnicodeの諸問題
編集 YEN SIGN 問題
この節の内容の信頼性について検証が求められています。確認のための文献や情報源をご存じの方はご提示ください。出典を明記し、記事の信頼性を高めるためにご協力をお願いします。議論はノートを参照してください。このタグは2010年7月に貼り付けられました。
Shift_JIS では JIS X 0201 における円記号 "¥" が 0x5C に置かれている。これを Unicode のマッピングに合わせると YEN SIGN (U+00A5) にマップされる。しかし、0x5C は ASCII ではバックスラッシュ "\" に相当し、C言語などのエスケープシーケンスに使われる事から、この文字のコードを変更すると問題が起きる。そのため Unicode を利用するアプリケーションは U+007F 以下のコードに関しては移動させないという暗黙のルールができている。
そうなると、Unicode 環境では円記号がバックスラッシュの表示に変わってしまうように思われるが、これは日本語用のフォントデータの 0x5C の位置には円記号の字形を当ててしまうことで対処している。これによって、それまでの文字コードを使用していたときと同じ感覚で円記号を用いることができる。
この問題は日本語環境に限った事ではない。もともと、ISO646 上で 0x5C を含む数種の文字は自由領域(バリアント)として各国での定義を認めていた。そのため、日本語以外でも ASCII でバックスラッシュに相当するコードに異なる記号を当てているケースが多い。例えば、韓国ではウォン記号 (WON SIGN, U+20A9, "₩") である。
編集 波ダッシュ・全角チルダ問題
JIS X 0221 規定の JIS X 0208 と JIS X 0221 の対応表では、波ダッシュは WAVE DASH (U+301C, "〜") に対応させているが、マイクロソフトは Windows の Shift_JIS と Unicode の変換テーブルを作成する際に、JIS X 0208 において 1 区 33 点に割り当てられている波ダッシュ "〜" を、Unicode における全角チルダ (FULLWIDTH TILDE, U+FF5E, "~") に割り当てたため不整合が生じる。この結果、Mac OS 等の JIS X 0221 準拠の Shift_JIS ⇔ Unicode 変換テーブルをもつ処理系と、Windows との間で Unicode データをやり取りする場合、文字化けを起こすことになる。そこで Windows 以外の OS 上で動くアプリケーションの中には、CP932 という名前でマイクロソフト仕様の Shift_JIS コード体系を別途用意して対応しているケースが多い。この原因とされている Unicode 仕様書の例示字形の問題に関しては、波ダッシュ#Unicodeに関連する問題を参照すること。
また、マイクロソフトは同様に EM DASH (U+2014, "—") を HORIZONTAL BAR (U+2015, "―") に、DOUBLE VERTICAL LINE (U+2016, "‖") を PARALLEL TO (U+2225, "∥") に、MINUS SIGN (U+2212, "−") を FULLWIDTH HYPHEN-MINUS (U+FF0D, "-") に割り当てており、これらの変換時にも問題が起こる。Windows Vista や Microsoft Office 2007 に付属する IME パッドの文字一覧における JIS X 0213 の面区点の表示は、上記の文字についても JIS で規定されているものと同じマッピングを使用している[7]。
編集 一覧
Unicodeの一覧
0000-0FFF
1000-1FFF
2000-2FFF
3000-3FFF
4000-4FFF
5000-5FFF
6000-6FFF
7000-7FFF
8000-8FFF
9000-9FFF
A000-AFFF
B000-BFFF
C000-CFFF
D000-DFFF
E000-EFFF
F000-FFFF
10000-10FFF
11000-11FFF
12000-12FFF
13000-13FFF
14000-14FFF
15000-15FFF
16000-16FFF
17000-17FFF
18000-18FFF
19000-19FFF
1A000-1AFFF
1B000-1BFFF
1C000-1CFFF
1D000-1DFFF
1E000-1EFFF
1F000-1FFFF
20000-20FFF
21000-21FFF
22000-22FFF
23000-23FFF
24000-24FFF
25000-25FFF
26000-26FFF
27000-27FFF
28000-28FFF
29000-29FFF
2A000-2AFFF
2B000-2BFFF
2C000-2CFFF
2D000-2DFFF
2E000-2EFFF
2F000-2FFFF
E0000-E0FFF
コード順分類一覧
範囲
名称
日本語名称
U+0000-007F
Basic Latin
基本ラテン文字 (ASCII互換)
U+0080-00FF
Latin-1 Supplement
ラテン1補助
U+0100-017F
Latin Extended-A
ラテン文字拡張A
U+0180-024F
Latin Extended-B
ラテン文字拡張B
U+0250-02AF
IPA Extensions
IPA拡張 (国際音声記号)
U+02B0-02FF
Spacing Modifier Letters
前進を伴う修飾文字
U+0300-036F
Combining Diacritical Marks
ダイアクリティカルマーク(合成可能)
U+0370-03FF
Greek and Coptic
ギリシア文字及びコプト文字
U+0400-04FF
Cyrillic
キリール文字 (キリル文字)
U+0500-052F
Cyrillic Supplement
キリール文字補助
U+0530-058F
Armenian
アルメニア文字
U+0590-05FF
Hebrew
ヘブライ文字
U+0600-06FF
Arabic
アラビア文字
U+0700-074F
Syriac
シリア文字
U+0750-077F
Arabic Supplement
アラビア文字補助
U+0780-07BF
Thaana
ターナ文字
U+07C0-07FF
NKo
ンコ文字
U+0800-083F
Samaritan
サマリア文字 *
U+0840-085F
Mandaic
マンダイック文字 *
U+0900-097F
Devanagari
デーヴァーナーガリー文字
U+0980-09FF
Bengali
ベンガル文字
U+0A00-0A7F
Gurmukhi
グルムキー文字
U+0A80-0AFF
Gujarati
グジャラート文字 (グジャラーティー文字)
U+0B00-0B7F
Oriya
オリヤー文字
U+0B80-0BFF
Tamil
タミル文字
U+0C00-0C7F
Telugu
テルグ文字 (テルグー文字)
U+0C80-0CFF
Kannada
カンナダ文字
U+0D00-0D7F
Malayalam
マラヤーラム文字
U+0D80-0DFF
Sinhala
シンハラ文字
U+0E00-0E7F
Thai
タイ文字
U+0E80-0EFF
Lao
ラオス文字 (ラオ文字、ラーオ文字)
U+0F00-0FFF
Tibetan
チベット文字
U+1000-109F
Myanmar
ミャンマー文字 (ビルマ文字)
U+10A0-10FF
Georgian
グルジア文字
U+1100-11FF
Hangul Jamo
ハングル字母
U+1200-137F
Ethiopic
エチオピア文字
U+1380-139F
Ethiopic Supplement
エチオピア文字補助
U+13A0-13FF
Cherokee
チェロキー文字
U+1400-167F
Unified Canadian Aboriginal Syllabics
統合カナダ先住民音節
U+1680-169F
Ogham
オガム文字 (オーム文字)
U+16A0-16FF
Runic
ルーン文字
U+1700-171F
Tagalog
タガログ文字
U+1720-173F
Hanunoo
ハヌノオ文字
U+1740-175F
Buhid
ブヒッド文字
U+1760-177F
Tagbanwa
タグバヌワ文字
U+1780-17FF
Khmer
クメール文字
U+1800-18AF
Mongolian
モンゴル文字
U+18B0-18FF
Unified Canadian Aboriginal Syllabics Extended
統合カナダ先住民音節拡張 *
U+1900-194F
Limbu
リンブ文字
U+1950-197F
Tai Le
タイ・ロ文字
U+1980-19DF
New Tai Lue
新タイ・ロ文字
U+19E0-19FF
Khmer Symbols
クメール文字用記号
U+1A00-1A1F
Buginese
ブギス文字
U+1A20-1AAF
Tai Tham
ラーンナー文字 *
U+1B00-1B7F
Balinese
バリ文字
U+1B80-1BBF
Sundanese
スンダ文字 *
U+1BC0-1BFF
Batak
バタク文字 *
U+1C00-1C4F
Lepcha
レプチャ文字 *
U+1C50-1C7F
Ol Chiki
オルチキ文字 *
U+1CD0-1CFF
Vedic Extensions
ヴェーダ文字拡張 *
U+1D00-1D7F
Phonetic Extensions
音声記号拡張
U+1D80-1DBF
Phonetic Extensions Supplement
音声記号拡張補助
U+1DC0-1DFF
Combining Diacritical Marks Supplement
ダイアクリティカルマーク補助(合成可能)補助
U+1E00-1EFF
Latin Extended Additional
ラテン文字拡張追加
U+1F00-1FFF
Greek Extended
ギリシア文字拡張
U+2000-206F
General Punctuation
一般句読点
U+2070-209F
Superscripts and Subscripts
上付き・下付き
U+20A0-20CF
Currency Symbols
通貨記号
U+20D0-20FF
Combining Diacritical Marks for Symbols
記号用ダイアクリティカルマーク(合成可能)
U+2100-214F
Letterlike Symbols
文字様記号
U+2150-218F
Number Forms
数字に準じるもの
U+2190-21FF
Arrows
矢印
U+2200-22FF
Mathematical Operators
数学記号 (演算子)
U+2300-23FF
Miscellaneous Technical
その他の技術用記号
U+2400-243F
Control Pictures
制御機能用記号
U+2440-245F
Optical Character Recognition
光学的文字認識、OCR
U+2460-24FF
Enclosed Alphanumerics
囲み英数字
U+2500-257F
Box Drawing
罫線素片
U+2580-259F
Block Elements
ブロック要素
U+25A0-25FF
Geometric Shapes
幾何学模様
U+2600-26FF
Miscellaneous Symbols
その他の記号
U+2700-27BF
Dingbats
装飾記号
U+27C0-27EF
Miscellaneous Mathematical Symbols-A
その他の数学記号A
U+27F0-27FF
Supplemental Arrows-A
補助矢印A
U+2800-28FF
Braille Patterns
ブライユ点字
U+2900-297F
Supplemental Arrows-B
補助矢印B
U+2980-29FF
Miscellaneous Mathematical Symbols-B
その他の数学記号B
U+2A00-2AFF
Supplemental Mathematical Operators
補助数学記号
U+2B00-2BFF
Miscellaneous Symbols and Arrows
その他の記号及び矢印
U+2C00-2C5F
Glagolitic
グラゴル文字
U+2C60-2C7F
Latin Extended-C
ラテン文字拡張C
U+2C80-2CFF
Coptic
コプト文字
U+2D00-2D2F
Georgian Supplement
グルジア文字補助
U+2D30-2D7F
Tifinagh
ティフナグ文字
U+2D80-2DDF
Ethiopic Extended
エチオピア文字拡張
U+2DE0-2DFF
Cyrillic Extended-A
キリール文字拡張A *
U+2E00-2E7F
Supplemental Punctuation
補助句読点
U+2E80-2EFF
CJK Radicals Supplement
CJK部首補助
U+2F00-2FDF
Kangxi Radicals
康熙部首
U+2FF0-2FFF
Ideographic Description Characters
漢字構成記述文字、IDC
U+3000-303F
CJK Symbols and Punctuation
CJKの記号及び句読点
U+3040-309F
Hiragana
平仮名
U+30A0-30FF
Katakana
片仮名
U+3100-312F
Bopomofo
注音字母 (注音符号)
U+3130-318F
Hangul Compatibility Jamo
ハングル互換字母
U+3190-319F
Kanbun
漢文用記号 (返り点)
U+31A0-31BF
Bopomofo Extended
注音字母拡張
U+31C0-31EF
CJK Strokes
CJKの筆画
U+31F0-31FF
Katakana Phonetic Extensions
片仮名拡張
U+3200-32FF
Enclosed CJK Letters and Months
囲みCJK文字・月
U+3300-33FF
CJK Compatibility
CJK互換用文字
U+3400-4DBF
CJK Unified Ideographs Extension A
CJK統合漢字拡張A
U+4DC0-4DFF
Yijing Hexagram Symbols
易経記号(六十四卦)
U+4E00-9FFF
CJK Unified Ideographs
CJK統合漢字
U+A000-A48F
Yi Syllables
イ文字
U+A490-A4CF
Yi Radicals
イ文字部首
U+A4D0-A4FF
Lisu
リス文字 *
U+A500-A63F
Vai
ヴァイ文字 *
U+A640-A69F
Cyrillic Extended-B
キリール文字拡張B *
U+A6A0-A6FF
Bamum
バムン文字 *
U+A700-A71F
Modifier Tone Letters
声調修飾文字
U+A720-A7FF
Latin Extended-D
ラテン文字拡張D
U+A800-A82F
Syloti Nagri
シロティナグリ文字
U+A830-A83F
Common Indic Number Forms
共通インド数字に準じるもの *
U+A840-A87F
Phags-pa
パスパ文字
U+A880-A8DF
Saurashtra
サウラーシュトラ文字 *
U+A8E0-A8FF
Devanagari Extended
デーヴァーナーガリー文字拡張 *
U+A900-A92F
Kayah Li
カヤー文字 *
U+A930-A95F
Rejang
ルジャン文字 (レジャン文字) *
U+A960-A97F
Hangul Jamo Extended-A
ハングル字母拡張A *
U+A980-A9DF
Javanese
ジャワ文字 *
U+AA00-AA5F
Cham
チャム文字 *
U+AA60-AA7F
Myanmar Extended-A
ミャンマー文字拡張A(ビルマ文字拡張A) *
U+AA80-AADF
Tai Viet
タイ・ヴェト文字 *
U+AB00-AB2F
Ethiopic Extended-A
エチオピア文字拡張A *
U+ABC0-ABFF
Meetei Mayek
マニプリ文字 *
U+AC00-D7AF
Hangul Syllables
ハングル音節文字
U+D7B0-D7FF
Hangul Jamo Extended-B
ハングル字母拡張B *
U+D800-DB7F
High Surrogates
上位代用符号位置
U+DB80-DBFF
High Private Use Surrogates
上位私用代用符号位置
U+DC00-DFFF
Low Surrogates
下位代用符号位置
U+E000-F8FF
Private Use Area
私用領域 (外字領域)
U+F900-FAFF
CJK Compatibility Ideographs
CJK互換漢字
U+FB00-FB4F
Alphabetic Presentation Forms
アルファベット表示形
U+FB50-FDFF
Arabic Presentation Forms-A
アラビア表示形A
U+FE00-FE0F
Variation Selectors
字形選択子 (異体字セレクタ)
U+FE10-FE1F
Vertical Forms
縦書き形
U+FE20-FE2F
Combining Half Marks
半記号(合成可能)
U+FE30-FE4F
CJK Compatibility Forms
CJK互換形
U+FE50-FE6F
Small Form Variants
小字形
U+FE70-FEFF
Arabic Presentation Forms-B
アラビア表示形B
U+FF00-FFEF
Halfwidth and Fullwidth Forms
半角・全角形
U+FFF0-FFFF
Specials
特殊用途文字
U+10000-1007F
Linear B Syllabary
線文字B音節文字
U+10080-100FF
Linear B Ideograms
線文字B表意文字
U+10100-1013F
Aegean Numbers
エーゲ数字
U+10140-1018F
Ancient Greek Numbers
古代ギリシア数字
U+10190-101CF
Ancient Symbols
古代記号 *
U+101D0-101FF
Phaistos Disc
ファイストスの円盤の文字 *
U+10280-1029F
Lycian
リキア文字 *
U+102A0-102DF
Carian
カリア文字 *
U+10300-1032F
Old Italic
古代イタリア文字
U+10330-1034F
Gothic
ゴート文字
U+10380-1039F
Ugaritic
ウガリト文字
U+103A0-103DF
Old Persian
古代ペルシャ文字
U+10400-1044F
Deseret
デザレット文字
U+10450-1047F
Shavian
シェイヴィアン文字
U+10480-104AF
Osmanya
オスマニア文字
U+10800-1083F
Cypriot Syllabary
キプロス音節文字
U+10840-1085F
Imperial Aramaic
アラム文字 *
U+10900-1091F
Phoenician
フェニキア文字
U+10920-1093F
Lydian
リディア文字 *
U+10A00-10A5F
Kharoshthi
カローシュティー文字
U+10A60-10A7F
Old South Arabian
古典南アラビア文字 *
U+10B00-10B3F
Avestan
アヴェスター文字 *
U+10B40-10B5F
Inscriptional Parthian
碑文パルティア文字 *
U+10B60-10B7F
Inscriptional Pahlavi
碑文パフラヴィー文字 *
U+10C00-10C4F
Old Turkic
古テュルク文字 *
U+10E60-10E7F
Rumi Numeral Symbols
ルーミー数字記号 *
U+11000-1107F
Brahmi
ブラーフミー文字 *
U+11080-110CF
Kaithi
カイティ文字 *
U+12000-123FF
Cuneiform
楔形文字
U+12400-1247F
Cuneiform Numbers and Punctuation
楔形文字の数字及び句読点
U+13000-1342F
Egyptian Hieroglyphs
ヒエログリフ文字 *
U+16800-16A3F
Bamum Supplement
バムン文字補助 *
U+1B000-1B0FF
Kana Supplement
かな文字補助 *
U+1D000-1D0FF
Byzantine Musical Symbols
ビザンチン音楽(英語、ギリシア語)記号
U+1D100-1D1FF
Musical Symbols
音楽記号
U+1D200-1D24F
Ancient Greek Musical Notation
古代ギリシア音符記号
U+1D300-1D35F
Tai Xuan Jing Symbols
太玄経記号
U+1D360-1D37F
Counting Rod Numerals
算木用数字
U+1D400-1D7FF
Mathematical Alphanumeric Symbols
数学用英数字記号
U+1F000-1F02F
Mahjong Tiles
麻雀牌 *
U+1F030-1F09F
Domino Tiles
ドミノ牌 *
U+1F0A0-1F0FF
Playing Cards
トランプ *
U+1F100-1F1FF
Enclosed Alphanumeric Supplement
囲み英数字補助 *
U+1F200-1F2FF
Enclosed Ideographic Supplement
囲み表意文字補助 *
U+1F300-1F5FF
Miscellaneous Symbols And Pictographs
その他の記号と絵文字 *
U+1F600-1F64F
Emoticons
顔文字 *
U+1F680-1F6FF
Transport And Map Symbols
交通と地図の記号 *
U+1F700-1F77F
Alchemical Symbols
錬金術記号 *
U+20000-2A6DF
CJK Unified Ideographs Extension B
CJK統合漢字拡張B
U+2A700-2B73F
CJK Unified Ideographs Extension C
CJK統合漢字拡張C *
U+2B740-2B81F
CJK Unified Ideographs Extension D
CJK統合漢字拡張D *
U+2F800-2FA1F
CJK Compatibility Ideographs Supplement
CJK互換漢字補助
U+E0000-E007F
Tags
タグ
U+E0100-E01EF
Variation Selectors Supplement
字形選択子補助
U+F0000-FFFFF
Supplementary Private Use Area-A
補助私用領域A
U+100000-10FFFF
Supplementary Private Use Area-B
補助私用領域B
日本語名称がJIS X 0221:2007に掲載されているブロックについてはそれに準拠し、Wikipedia内の他の記事で用いられている名称と異なる場合はその名前も併記した。*印はそれ以降に追加されたブロックであるためJISに基づかない。
編集 脚注
^ 相違点のいくつかはUnicodeベースになる前のDIS 10646に由来する。
^ Unicode Consortium. “Components of The Unicode Version 5.1.0”. 2008年4月5日閲覧。
^ Unicode Consortium. “Unicode 5.1.0”. 2008年4月8日閲覧。
^ Unicode Consortium. “Ideographic Variation Database”. 2008年4月7日閲覧。
^ RFC 3629の5. Versions of the standardsでKorean mess (ハングル大移動) について、8. MIME registrationでUTF-8にバージョン指定がない理由についての言及がある。
^ 小形克宏 (2000年7月20日). “小形克宏の「文字の海、ビットの舟」”. INTERNET Watch. 2011年2月24日閲覧。
^ “Microsoft IME2007 の JIS X 0213 と Unicode の対応”. 2008年4月8日閲覧。
編集 参考資料
用語の日本語表記は原則として次にならった。“Unicode Terminology English - Japanese”. Unicode, Inc. 2010年1月1日閲覧。
編集 関連項目
Unicode一覧
Unicode参照アルゴリズム
ISO/IEC 10646
文字コード
OpenType
機種依存文字
国際化と地域化
中西亮 : 著作「Writing Systems of the World」(英文)は、Unicode の策定時に大きな役割をはたした要出典。
編集 外部リンク
公式サイト (英語)
DecodeUnicode (英語)
表・話・編・歴
文字コード
Category:文字コード
日本語用の
文字コード
JIS規格
符号化文字集合
JIS X 0201 · JIS X 0208 · JIS X 0212 · JIS X 0213 · JIS X 0221
文字符号化方式
ISO-2022-JP · EUC-JP · Shift_JIS · Shift_JISX0213 · Shift_JIS-2004 · EUC-JISX0213 · EUC-JIS-2004 · ISO-2022-JP-3 · ISO-2022-JP-2004 (漢字シフトコード)
文字一覧
JIS X 0213非漢字一覧
JIS以外の公規格
ARIB外字
メーカーの規格
符号化文字集合
iモード絵文字 · 今昔文字鏡 · JIPS · EBCDIC · GT書体 · KEIS · IBM漢字システム · Adobe-Japan1
文字符号化方式
Microsoftコードページ932 · MacJapanese · JEF漢字コード · U-PRESS
日本語を含む
多言語文字集合
Unicode
面 (文字コード)
基本多言語面 · 追加面(追加多言語面 · 追加漢字面 · 追加特殊用途面 · 私用面)
文字符号化方式
UTF-8 · UTF-16/UCS-2 · UTF-32/UCS-4 · UTF-7 · UTF-EBCDIC · GB 18030 · SCSU · BOCU-1
文字一覧
Unicode一覧 · Unicode一覧表
TRONコード
TRONコード
日本語以外用の
文字集合
初期の文字コード
ASCII · Baudot Code · ISO/IEC 646 · ISO/IEC 6937 · T.61
ISO/IEC 8859
-1 · -2 · -3 · -4 · -5 · -6 · -7 · -8 · -9 · -10 · -11 · -12 · -13 · -14 · -15 · -16
Bibliographic
use
ANSEL ISO 5426=5426-2=5427=5428=6438=6861=6862=10585=10586=10754=11822 MARC-8
国家標準
ArmSCII · CNS 11643 · GOST 10859 · GB 2312 · HKSCS · ISCII · KPS 9566 · KS X 1001 · PASCII · TIS-620 · TSCII · VISCII · YUSCII · KOI8-R · KOI8-RU · KOI8-U · KOI8-T · KOI8-CS
EUC
CN · KR · TW
ISO/IEC 2022
ISO/IEC 2022 CN · ISO/IEC 2022 KR · CCCII
MacOS
コードページ
Macintosh Standard Roman Character Set · アラビア語 · CentralEurRoman · EUC-CN · Big5 · クロアチア · キリル · デーヴァナーガリー · Dingbats · ペルシャ語 · ギリシア語 · Gujarati · グルムキー · ヘブライ語 · アイスランド語 · EUC-KR · ウーマニア · MacSymbol · TIS-620 · トルコ · ウクライナ
DOS
コードページ
437 · 720 · 737 · 775 · 850 · 852 · 855 · 857 · 858 · 860 · 861 · 862 · 863 · 864 · 865 · 866 · 869 · KOI8 · Kamenicky · Mazovia · MIK · Iran System
Windows
コードページ
874=TIS-620 = 936=GBK · 949=EUC-KR · 950=Big5 · 1250 · 1251 · 1252 · 1253 · 1254 · 1255 · 1256 · 1257 · 1258 · 1361 · 54936=GB18030
EBCDIC
コードページ
37/1140 · 273/1141 · 277/1142 · 278/1143 · 280/1144 · 284/1145 · 285/1146 · 297/1147 · 420/16804 · 424/12712 · 500/1148 · 838/1160 · 871/1149 · 875/9067 · 930/1390 · 933/1364 · 937/1371 · 935/1388 · 939/1399 · 1025/1154 · 1026/1155 · 1047/924 · 1112/1156 · 1122/1157 · 1123/1158 · 1130/1164
プラットフォーム
固有
ATASCII · CDC display code · DEC Radix-50 · Fieldata · GSM 03.38 · HP roman8 · PETSCII · TI calculator character sets · ZX Spectrum character set
関連トピック
コードページ · 外字 · C0 and C1 control codes · CCSID · charset detection · 図形文字 · 制御文字 · CJK統合漢字 · ISO 6429/IEC 6429/ANSI X3.64 · legacy encoding · 文字化け · モールス符号 · 6ビット文字コード · 文字コード表 · ワイド文字 · マルチバイト文字 · 機種依存文字 · 文字コード表 (Windows) · 文字パレット · KCharSelect · 携帯電話の絵文字
Program Announced for 35th Internationalization and Unicode Conference
Santa Clara, Calif., USA; October 17-19, 2011 MOUNTAIN VIEW, Calif., June 1, 2011 /PRNewswire-USNewswire/ -- The Unicode® Consortium today announced the program for the Thirty-fifth Internationalization & Unicode® Conference (IUC 35), taking place in Santa Clara, Calif., USA; October 17-19, 2011, sponsored by Adobe. The conference is produced by OMG®. (Logo: http://photos ...
Unicode - Wikipedia, the free encyclopedia
A description of the basic concept of Unicode plus links to related resources.
Unicode: Definition from Answers.com
Unicode International character-encoding system designed to support the electronic interchange, processing, and display of the written texts of the
Perl 5.14 Improves IPv6, Unicode
The new release provides improved Unicode support and expands IPv6 capabilities. While Perl 5.14 is now generally available, the release follows 12 incremental releases in the development tree.
What is Unicode?
Depending on the level of Unicode support in the browser you are using and whether or not ... Before Unicode was invented, there were hundreds of different ...
Telecom Egypt S.A.E - TE Announces Q1 2011 Consolidated Results
Telecom Egypt S.A.E - TE Announces Q1 2011 Consolidated Results
The Absolute Minimum Every Software Developer Absolutely ...
Haven't mastered the basics of Unicode and character sets? Please don't write another line of code until you've read this article.
Telecom Egypt S.A.E - TE Announces Changes to its Board of Directors
Telecom Egypt S.A.E - TE Announces Changes to its Board of Directors
Vietnamese Unicode FAQs
Information about Vietnamese Unicode applications, including standards, character encodings, fonts, keyboard drivers, conversion utilities and applications.
Bank Hapoalim B.M. - Changes in Holdings of Interested Parties
Bank Hapoalim B.M. - Changes in Holdings of Interested Parties
Unicode typeface - Wikipedia, the free encyclopedia
A Unicode typeface (also known as UCS font and Unicode font) is a typeface that contains ... The Unicode standard does not specify or create the font (typeface), a ...
Bank Hapoalim B.M. - Change in Number of Treasury Shares
Bank Hapoalim B.M. - Change in Number of Treasury Shares
Unicode - Definition | WordIQ.com
In computing, Unicode is the international standard whose goal is to provide the means to encode the text of every document people want to store in computers. ...
Leumi Intl Invs. - Bank Leumi - 1st Quarter Results
Leumi Intl Invs. - Bank Leumi - 1st Quarter Results
Unicode and multilingual support in HTML, fonts, Web browsers ...
A guide to displaying thousands of foreign and special characters in Web pages, with the aid of Unicode, plus notes on suitable multilingual browsers, fonts, editors ...
Telecom Egypt S.A.E - Publishes Audited Q1 2011 Financial Results
Telecom Egypt S.A.E - Publishes Audited Q1 2011 Financial Results



















