アブギダ
アラビア文字
アルメニア文字
インタプリタ
ウムラウト
エンディアン
オペレーティングシステム
オーバーライン
キリール文字
ギリシャ文字
ケン・トンプソン
コードページ
サロゲートペア
シバン (Unix)
シリア文字
ジョークRFC
スクリプト言語
ターナ文字
ダイアクリティカルマーク
ディレクトリトラバーサル
バイトオーダーマーク
バイト (情報)
バグ
バッファオーバーフロー
ヘブライ文字
ベル研究所
マルチバイト文字
メインページ
モールス符号
ラテン文字
ロブ・パイク
ワイド文字
ワーム
今昔文字鏡
仮名 (文字)
全角と半角
円記号
冗長性 (情報理論)
制御文字
協定世界時
句読点
図形文字
国際化ドメイン名
基本多言語面
外字
携帯電話の絵文字
文字コード
文字コード表
文字コード表 (Windows)
文字化け
文字符号化方式
文字集合
日本語
東アジア
機種依存文字
漢字
漢字シフトコード
私用面
絵文字
縦書きと横書き
追加多言語面
追加漢字面
追加特殊用途面
追加面
面 (文字コード)
4月1日 (2005年)
ARIB外字
ASCII
Baudot Code
Big5
CCCII
CCSID
CID (文字コード)
CJK統合漢字
CNS 11643
Comma-Separated Values
EBCDIC
EUC-CN
EUC-JIS-2004
EUC-JISX0213
EUC-JP
EUC-KR
EUC-TW
EmEditor
Emacs
Extended Unix Code
GBK
GB 18030
GB 2312
GT書体
HFS+
HKSCS
Iモード絵文字
IBM漢字システム
ISCII
ISO-2022-JP
ISO-2022-JP-2004
ISO-2022-JP-3
ISO/IEC 10646
ISO/IEC 2022
アラビア文字
アルメニア文字
インタプリタ
ウムラウト
エンディアン
オペレーティングシステム
オーバーライン
キリール文字
ギリシャ文字
ケン・トンプソン
コードページ
サロゲートペア
シバン (Unix)
シリア文字
ジョークRFC
スクリプト言語
ターナ文字
ダイアクリティカルマーク
ディレクトリトラバーサル
バイトオーダーマーク
バイト (情報)
バグ
バッファオーバーフロー
ヘブライ文字
ベル研究所
マルチバイト文字
メインページ
モールス符号
ラテン文字
ロブ・パイク
ワイド文字
ワーム
今昔文字鏡
仮名 (文字)
全角と半角
円記号
冗長性 (情報理論)
制御文字
協定世界時
句読点
図形文字
国際化ドメイン名
基本多言語面
外字
携帯電話の絵文字
文字コード
文字コード表
文字コード表 (Windows)
文字化け
文字符号化方式
文字集合
日本語
東アジア
機種依存文字
漢字
漢字シフトコード
私用面
絵文字
縦書きと横書き
追加多言語面
追加漢字面
追加特殊用途面
追加面
面 (文字コード)
4月1日 (2005年)
ARIB外字
ASCII
Baudot Code
Big5
CCCII
CCSID
CID (文字コード)
CJK統合漢字
CNS 11643
Comma-Separated Values
EBCDIC
EUC-CN
EUC-JIS-2004
EUC-JISX0213
EUC-JP
EUC-KR
EUC-TW
EmEditor
Emacs
Extended Unix Code
GBK
GB 18030
GB 2312
GT書体
HFS+
HKSCS
Iモード絵文字
IBM漢字システム
ISCII
ISO-2022-JP
ISO-2022-JP-2004
ISO-2022-JP-3
ISO/IEC 10646
ISO/IEC 2022
Unicode
符号化方式
UTF-7
UTF-8
CESU-8
UTF-16/UCS-2
UTF-32/UCS-4
UTF-EBCDIC
SCSU
Punycode (IDN/IDNA)
GB 18030
その他
UCS
マッピング
書字方向
BOM
漢字統合
UnicodeとHTML
Unicodeと電子メール
Unicodeフォント
UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646(UCS)とUnicodeで使える8ビット符号単位の文字符号化形式及び文字符号化スキーム。
正式名称は、ISO/IEC 10646では‘UCS Transformation Format 8’、Unicodeでは‘Unicode Transformation Format-8’という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある[1]。
2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS(File System Safe)ともいわれる。旧名称はUTF-2。
データ交換方式、ファイル形式としては一般的にUTF-8が使われる傾向がある。Linuxのように、OSの標準文字エンコードとして使用される例も増えている。
当初は、ベル研究所において Plan 9で用いるエンコードとして、ロブ・パイクによる設計指針のもと、ケン・トンプソンによって考案された[2][3]。
目次
1 エンコード体系
2 特徴
2.1 メリット
2.2 デメリット
3 サロゲートペアの扱い
4 セキュリティ
5 文字種
6 バイト順マークの使用について
7 Unicode正規化との関係
8 脚注
9 参考資料
10 関連項目
編集 エンコード体系
ASCII文字と互換性を持たせるために、ASCIIと同じ部分は1バイト、その他の部分を2〜6バイトで符号化する。4バイトのシーケンスでは21bit(0x1FFFFF)まで表現することができるが、Unicodeの範囲外となる17面以降を表すもの(U+10FFFFより大きなもの)は受け付けない。また5〜6バイトの表現は、ISO/IEC 10646による定義[4]とIETFによるかつての定義[5]で、Unicodeの範囲外を符号化するためにのみ使用するが、Unicodeによる定義[6]とIETFによる最新の定義[7]では、5〜6バイトの表現は不正なシーケンスである。
ビットパターンは以下のようになっている。
Unicode
ビット列
バイト列
有効ビット
U+00 … U+7F
0xxx xxxx
00-7F
07bit
(min)U+00
000 0000
00
(max)U+7F
111 1111
7F
U+0080 … U+07FF
110yyy yx
10xx xxxx
C2-DF
80-BF
11bit
(min)U+080
000 10
00 0000
C2
80
(max)U+7FF
111 11
11 1111
DF
BF
U+0800 … U+FFFF
1110yyyy
10yxxx xx
10xx xxxx
E0-EF
80-BF
80-BF
16bit
(min)U+0800
0000
1000 00
00 0000
E0
A0
80
(max)U+FFFF
1111
1111 11
11 1111
EF
BF
BF
U+010000 … U+1FFFFF
11110y yy
10yy xxxx
10xxxx xx
10xx xxxx
F0-F7
80-BF
80-BF
80-BF
21bit
(min)U+010000
0 00
01 0000
0000 00
00 0000
F0
90
80
80
(max)U+1FFFFF
1 11
11 1111
1111 11
11 1111
F7
BF
BF
BF
U+00200000 … U+03FFFFFF
111110yy
10yyyx xx
10xx xxxx
10xxxx xx
10xx xxxx
F8-FB
80-BF
80-BF
80-BF
80-BF
26bit
(min)U+0200000
00
0010 00
00 0000
0000 00
00 0000
F8
88
80
80
80
(max)U+3FFFFFF
11
1111 11
11 1111
1111 11
11 1111
FB
BF
BF
BF
BF
U+04000000 … U+7FFFFFFF
1111110y
10yy yyxx
10xxxx xx
10xx xxxx
10xxxx xx
10xx xxxx
FC-FD
80-BF
80-BF
80-BF
80-BF
80-BF
31bit
(min)U+04000000
0
00 0100
0000 00
00 0000
0000 00
00 0000
FC
84
80
80
80
80
(max)U+7FFFFFFF
1
11 1111
1111 11
11 1111
1111 11
11 1111
FD
BF
BF
BF
BF
BF
Unicodeの符号位置を2進表記したものを、上のビットパターンのx, yに右詰めに格納する。最短のバイト数で符号化するため、yの部分には最低1回は1が出現する。符号化されたバイト列は、バイト順に関わらず左から順に出力する。 U+0000……U+007F 16進数で 0から7Fまで 二進数なら0から1111111までのこと。これが、0xxxxxxxのxの部分にはいる。
これにより4バイトで21bit、6バイトで31bitまで表現することができる。
1バイト目の上位ビットの1の個数でその文字のバイト数が判るようになっている。また、2バイト目以降は10で始まり、1バイト目と2バイト目以降では値の範囲が重ならないので、文字境界を確実に判定できる。
7バイト以上の文字は規定されないため、0xfe、0xffは使用されない。このため、バイト順マーク (BOM) に0xfeと0xffを使用するUTF-16やUTF-32が、UTF-8と混同されることはない。
編集 特徴
編集 メリット
バイトストリーム中の任意の位置から、その文字、前の文字、あるいは次の文字の先頭バイトを容易に判定することができる。
文字列の検索を単なるバイト列の検索として行っても、文字境界と異なる個所でマッチしてしまうことがない。たとえばShift_JISで「¥」(0x5C)を検索すると「表」(0x95 0x5C)の2バイト目にマッチしたり、EUC-JPで「海」(0xB3 0xA4)を検索すると「ここ」(0xA4 0xB3 0xA4 0xB3)にマッチしたりするのと同様のことが起きない。このため、マルチバイト文字を意識せず、ISO 8859-1などの8bit文字向けに作られた膨大なプログラム資産を、比較的少ない修正で再利用できる。
ただし、他のUnicodeの符号化と同様に、単にバイト列の比較では文字列が同一か判断できない場合がある。詳細は、Unicodeの等価性及び正規化を参照のこと。
UTF-16やUTF-32と異なり、バイト単位の入出力を行うため、バイト順の影響がない。
31bitまで表現できるため、サロゲートペアを使用する必要がない。
ASCII文字が主体の文書であれば、ほとんどデータサイズを増やさずにUnicodeのメリットを享受できる。UTF-16やUTF-32では、データサイズはほぼ2倍、4倍となる。
複数のUTF-8文字列を、単なる符号なし8bit整数の配列とみなして辞書順ソートした結果は、Unicodeの符号位置の辞書順のソート結果(すなわちUTF-32に変換した後にソートした結果)と等しくなる。
編集 デメリット
UTF-8による符号化では、漢字や仮名などの表現に3バイトを要する。このように、東アジアの従来文字コードではマルチバイト符号を用いて1文字2バイトで表現されていたデータが、1.5倍かそれ以上のサイズとなる。同様に、ISO/IEC 8859-1では1バイトで表現できた非ASCIIのラテン文字 (ウムラウト付きの文字など) も2バイトとなるし、その他のISO/IEC 8859シリーズに属する文字符号ではデータ量がさらに増大しうる。
なお、1バイトが9ビットである処理系では、この問題をあまり発生させずに符号化できるはずである。このアイディアに基づいたジョークRFCがRFC 4042 “UTF-9” として2005年4月1日に公開された。
文字数とデータサイズが比例しないため、文字数を調べるには先頭から全データを読み取る必要がある。
最短ではない符号やサロゲートペアなど、UTF-8の規格外だがチェックを行わないプログラムでは一見正常に扱われるバイト列が存在する。これらのバイト列を入力として受け入れてしまうと、プログラムが予期しない範囲のデータを生成するため、セキュリティ上の脅威となりうる[8]。
編集 サロゲートペアの扱い
UTF-16の代用対(サロゲートペア)で表されるBMP外の文字をUTF-8に変換するときは、まず4バイトのサロゲートペア(代用対)(上位代用符号単位 0xD800〜0xDBFF, 下位代用符号単位 0xDC00〜0xDFFF)をU+10000からU+10FFFFまでの符号位置にデコードしてからUTF-8に符号化しなければならない。サロゲートペア(代用対)に使われるU+D800からU+DFFFまでの符号位置を、UTF-8でそのまま符号化することは禁止されており、不正なシーケンスとみなされる。
サロゲートペア(代用対)を残したままUTF-8と同等の符号化を行う規格は、CESU-8(Compatibility Encoding Scheme for UTF-16: 8-Bit)として別途定義されている。 これは、Oracle Databaseのバージョン8以前において、UTF-8文字は3バイトまでしか扱えなかったために便宜的に定義されている。4バイトのサロゲートペア(代用対)は使用せず、代わりに6バイトのサロゲートペア(代用対)(上位代用符号単位がED A0 80〜ED AF BF、下位代用符号単位が ED B0 80〜ED BF BF)で表現される[9]。
また、Javaの一部の内部実装で用いられているModified UTF-8も、サロゲートペアをそのまま残す仕様となっている。 ただし、NULL文字をC0 80とエンコードする(これもUTF-8規格外)点で、CESU-8とも異なる実装となっている。
編集 セキュリティ
UTF-8のエンコード体系には冗長性があり、同じ文字を符号化するのに複数の表現が考えられる。かつてはそのような表現も許容されていたが、ディレクトリトラバーサルなどの対策として行われる文字列検査を冗長な表現によりすり抜ける手法が知られるようになったため、現在の仕様では最も短いバイト数による表現以外は不正なUTF-8シーケンスとみなさなければならない。[10]
ISO/IEC 10646の定義が5バイト以上の表現を許容していることにより、正しくない実装を行ったバグのあるシステムにおいてエンコード時にバッファオーバーフローが発生する可能性も指摘されている。
編集 文字種
B
Unicode
スクリプト
JIS X 0201
JIS X 0208
JIS X 0212
JIS X 0213
1
U+0000……U+007F
ASCII
Roman(円記号・オーバーライン以外)
-
-
-
2
U+0080…………U+07FF
ラテン、ダイアクリティカル、ギリシャ、キリール、アルメニア、ヘブライ、アラビア、シリア、ターナ
円記号
非漢字の一部
非漢字の一部
非漢字の一部
3
U+0800……U+7FFF
インド系諸文字、句読点、学術記号、絵文字、東アジアの諸文字、全角半角形
オーバーライン、Kana
残りの全て
残りの全て
大半
4
U+10000……U+1FFFFF
古代文字、3に含まれない漢字
-
-
-
第3・第4水準漢字の一部
編集 バイト順マークの使用について
UTF-8で符号されたテキストデータはエンディアンに関わらず同じ内容になるので、バイト順マーク(BOM)は必要ない。しかし、テキストデータがUTF-8で符号化されていることの標識として、データの先頭にEF BB BF (16進。UCSでのバイト順マークU+FEFFのUTF-8での表現) を付加することがある。一部のテキスト処理アプリケーション (エディタなど)がこのような動作をする (TeraPad、EmEditorエディタのように付加するかどうかを選択できるものもある)。なお、このシーケンスがある方をUTF-8、ない方をUTF-8Nと呼ぶこともあるが、このような呼び分けは日本以外ではほとんど知られておらず、また公的規格などによる裏付けもない。このため、UTF-8という呼び名を使っていれば情報交換の相手が文書先頭にこのシーケンスがあると見なすと期待すべきではないし、いっぽう、UTF-8Nという呼び名は情報交換の際に用いるべきではない。
このシーケンスを通常の文字と認識するプログラムでは、先頭に余分なデータがあるとみなされて問題となることがある。例えば、UNIX系OSにおける実行可能スクリプトは、ファイル先頭が「#!」から始まるとき、それに続く文字列をインタプリタのコマンドとして認識するが、多くのシステムでは、このシーケンスが存在するとこの機能が働かず実行できない。
逆にこのシーケンスがないとUTF-8と認識できないプログラムも存在する。とくにASCII部以外の文字が少ない場合に誤認することが多い (たとえば、Microsoft Excelでは、CSVファイルを開くとき、このシーケンスが付加されていないUTF-8の場合は正常に読み込むことができない[11])。
プロトコルが常にUTF-8である事を強制しているものである場合はこのシーケンスを禁止するべきで、この場合ファイル先頭にこのシーケンスが現れると“ZERO WIDTH NO-BREAK SPACE”と見なされる。逆にプロトコルがそれを保証しない場合このシーケンスは禁止されずファイル先頭のそれはバイト順マークと見なされる[12]。
編集 Unicode正規化との関係
一般に、Unicodeにもとづくテキストデータの表現は、正規化を行わなければ一意にならない。UTF-8自体は正規化の有無に関わらずデータを符号化できる。そこで、NFCやNFD、あるいはそれと類似の形式で正規化されたデータを要求するプロトコルやアプリケーションもある。
たとえば、Mac OS Xで使用されるHFS+ファイルシステムでは、ファイル名をNFDに正規化されたUTF-8で扱う。実際には、これはNFDを改変したものである。以前のMac OS用エンコーディングとの互換性を保つために、正規化から除外される文字がある[13]。この改変されたNFDで正規化されるUTF-8を、Mac OS Xに付属するiconvなどでは「UTF-8-MAC」として、EmacsではUTF-8-HFSとして扱うことができる。
Mac OS Xのシステムコールでは、ファイルにアクセスする際、通常のUTF-8で指定しても内部で前述の正規化が行われるため、ユーザーやプログラマはこれを意識する必要はない。しかし、ファイルの一覧などを取得した場合、取得されるファイル名は正規化されたものとなる。このファイル名をそのまま他のUTF-8を使用する (しかし、NFDによる分解を前提としていない) システムにコピーすると、そのシステムの一般的な方法ではアクセスできないファイルが作成されてしまうおそれがある。
編集 脚注
^ RFC 3629 UTF-8, a transformation format of ISO 10646
^ RFC 3629 Page-3
^ Rob Pike's UTF-8 history
^ ISO/IEC 10646:2003 Information technology -- Universal Multiple-Octet Coded Character Set (UCS)
^ RFC 2279 UTF-8, a transformation format of ISO 10646
^ The Unicode Standard, Version 5.2
^ RFC 3629 UTF-8, a transformation format of ISO 10646
^ RFC 3629, pp.9f.
^ 現在のOracle Databaseでは、CESU-8を「UTF8」として、「普通のUTF-8」を「AL32UTF8」として扱っているため注意を要する。
^ Windowsにおける有名なワームであるNimdaウイルスは、IISにおけるUTF-8の脆弱性をもちいたものである。本当は怖い文字コードの話 第4回 UTF-8の冗長なエンコード
^ ExcelでUTF-8の csvデータを表示するにはやUTF-8で文字化け回避してCSV出力する方法を参照
^ RFC 3629 6. Byte order mark (BOM)
^ Harris, Laurence (2003年5月6日). “Technical Note TN2078: Migrating to FSRefs & long Unicode names from FSSpecs” ファイル名がエンコードされる方法. Apple Inc. 2010年6月13日閲覧。
編集 参考資料
用語の日本語表記は原則として次にならった。“Unicode Terminology English - Japanese”. Unicode, Inc. 2010年1月1日閲覧。
編集 関連項目
文字コード
表・話・編・歴
文字コード
Category:文字コード
日本語用の
文字コード
JIS規格
符号化文字集合
JIS X 0201 · JIS X 0208 · JIS X 0212 · JIS X 0213 · JIS X 0221
文字符号化方式
ISO-2022-JP · EUC-JP · Shift_JIS · Shift_JISX0213 · Shift_JIS-2004 · EUC-JISX0213 · EUC-JIS-2004 · ISO-2022-JP-3 · ISO-2022-JP-2004 (漢字シフトコード)
文字一覧
JIS X 0213非漢字一覧
JIS以外の公規格
ARIB外字
メーカーの規格
符号化文字集合
iモード絵文字 · 今昔文字鏡 · JIPS · EBCDIC · GT書体 · KEIS · IBM漢字システム · Adobe-Japan1
文字符号化方式
Microsoftコードページ932 · MacJapanese · JEF漢字コード · U-PRESS
日本語を含む
多言語文字集合
Unicode
面 (文字コード)
基本多言語面 · 追加面(追加多言語面 · 追加漢字面 · 追加特殊用途面 · 私用面)
文字符号化方式
UTF-8 · UTF-16/UCS-2 · UTF-32/UCS-4 · UTF-7 · UTF-EBCDIC · GB 18030 · SCSU · BOCU-1
文字一覧
Unicode一覧 · Unicode一覧表
TRONコード
TRONコード
日本語以外用の
文字集合
初期の文字コード
ASCII · Baudot Code · ISO/IEC 646 · ISO/IEC 6937 · T.61
ISO/IEC 8859
-1 · -2 · -3 · -4 · -5 · -6 · -7 · -8 · -9 · -10 · -11 · -12 · -13 · -14 · -15 · -16
Bibliographic
use
ANSEL ISO 5426=5426-2=5427=5428=6438=6861=6862=10585=10586=10754=11822 MARC-8
国家標準
ArmSCII · CNS 11643 · GOST 10859 · GB 2312 · HKSCS · ISCII · KPS 9566 · KS X 1001 · PASCII · TIS-620 · TSCII · VISCII · YUSCII · KOI8-R · KOI8-RU · KOI8-U · KOI8-T · KOI8-CS
EUC
CN · KR · TW
ISO/IEC 2022
ISO/IEC 2022 CN · ISO/IEC 2022 KR · CCCII
MacOS
コードページ
Macintosh Standard Roman Character Set · アラビア語 · CentralEurRoman · EUC-CN · Big5 · クロアチア · キリル · デーヴァナーガリー · Dingbats · ペルシャ語 · ギリシア語 · Gujarati · グルムキー · ヘブライ語 · アイスランド語 · EUC-KR · ウーマニア · MacSymbol · TIS-620 · トルコ · ウクライナ
DOS
コードページ
437 · 720 · 737 · 775 · 850 · 852 · 855 · 857 · 858 · 860 · 861 · 862 · 863 · 864 · 865 · 866 · 869 · KOI8 · Kamenicky · Mazovia · MIK · Iran System
Windows
コードページ
874=TIS-620 = 936=GBK · 949=EUC-KR · 950=Big5 · 1250 · 1251 · 1252 · 1253 · 1254 · 1255 · 1256 · 1257 · 1258 · 1361 · 54936=GB18030
EBCDIC
コードページ
37/1140 · 273/1141 · 277/1142 · 278/1143 · 280/1144 · 284/1145 · 285/1146 · 297/1147 · 420/16804 · 424/12712 · 500/1148 · 838/1160 · 871/1149 · 875/9067 · 930/1390 · 933/1364 · 937/1371 · 935/1388 · 939/1399 · 1025/1154 · 1026/1155 · 1047/924 · 1112/1156 · 1122/1157 · 1123/1158 · 1130/1164
プラットフォーム
固有
ATASCII · CDC display code · DEC Radix-50 · Fieldata · GSM 03.38 · HP roman8 · PETSCII · TI calculator character sets · ZX Spectrum character set
関連トピック
コードページ · 外字 · C0 and C1 control codes · CCSID · charset detection · 図形文字 · 制御文字 · CJK統合漢字 · ISO 6429/IEC 6429/ANSI X3.64 · legacy encoding · 文字化け · モールス符号 · 6ビット文字コード · 文字コード表 · ワイド文字 · マルチバイト文字 · 機種依存文字 · 文字コード表 (Windows) · 文字パレット · KCharSelect · 携帯電話の絵文字
Music agenda: Britney Spears and Nicki Minaj on tour, Sónar Festival
The summer festival season kicks into high gear with the US's Bonnaroo, the UK's Download Festival and Spain's Sónar all happening this week. Also, Nicki Minaj joins Britney Spears for a two-month North American tour beginning June 16.
znaku Tomisaw podesa mi font batang ttc o wielkoci 16 MB ale jak wida wszystkich znakw nie zawiera Zawiera natomiast znaki chiskie i koreaskie co mona zobaczy na tym obrazku na przykadzie tego wielojzycznego tekstu o jedzeniu szka
http://www.exec.pl/wydarzenie.jsp?nid=2024&Papyrus_-_pakiet_biurowy_dla_Amigi
UTF-8 and Unicode Standards
UTF-8 encodes each Unicode character as a variable number of 1 to 4 octets, where the number of octets depends on the integer value assigned to the Unicode character. ...
Home agenda: garden trends in Chelsea, home trends in Glasgow
Over the coming week the latest horticultural trends and product will be on display at the RHS Chelsea Flower Show. One of the biggest events of its kind, the RHS Chelsea Flower Show is expected to attract nearly 160,000 visitors -- a number which is limited only by the size on the exhibition's temporary structure.
UTF-8: Information from Answers.com
UTF-8 ( U nicode T ransformation F ormat -8 ) A format in the Unicode coding system that uses from one to four bytes
WCC FEATURE: “Rebirth” for Jamaica's young people (WCC media =?utf-8?Q?WCC)
World Council of Churches - Feature “REBIRTH” FOR JAMAICA'S YOUNG PEOPLE For immediate release: 19 May 2011 When 15-year-old Lydia* realized she was pregnant, she was forced by Jamaican law to leave her high school in Kingston.
Baha'i news: Baha'i educational programme targeted in raids (=?utf-8?B?QmFoY Baha'i news:)
Baha'i World News Service http://news.bahai.org For more information, contact news@bahai.org Baha'i educational programme targeted in raids GENEVA, 22 May 2011 (BWNS) – A coordinated series of raids have been carried out on the homes of several Iranian Baha'is, active in a community initiative to provide a higher education programme for young ...
FAQ - UTF-8, UTF-16, UTF-32 & BOM
UTF-8 and UTF-32 are used by Linux and various Unix systems. ... A: There are three or four options for making Unicode fit into an 8-bit format. ...
Import EML to Outlook; Outlook Import Wizard–New Version, New Performance and New Features
Outlook Import Wizard is an all-in-one solution for transferring email archives in EML and MSG formats into Outlook’s native PST format. The recent release of the program adds plenty of useful features and offers increased performance and improved support of non-standard encodings. (PRWeb May 18, 2011) Read the full story at http://www.prweb.com/releases/2011/5/prweb8420722 ...
UTF-8 - Wikipedia, la enciclopedia libre
UTF-8 fue creado por Robert C. Pike y Kenneth L. Thompson. ... UTF-8 divide los caracteres Unicode en varios grupos, en función del número de bytes necesarios para codificarlos. ...
WCC FEATURE: While adults talk peace, kids try walking in another’s shoes (WCC media =?utf-8?Q?WCC)
World Council of Churches - Feature WHILE ADULTS TALK PEACE, KIDS TRY WALKING IN ANOTHER’S SHOES For immediate release: 23 May 2011 By Susan Kim (*) The story starts with Peter.
UTF-8 - Definition | WordIQ.com
UTF-8 is especially useful for transmission over 8-bit mail systems. It uses one to four bytes per character, depending on the Unicode symbol. ...
Baha'i News: UNESCO chief inaugurates square for tolerance and peace in Haifa (=?utf-8?B?QmFoY Baha'i News:)
Baha'i World News Service http://news.bahai.org For more information, contact news@bahai.org UNESCO chief inaugurates square for tolerance and peace in Haifa HAIFA, Israel, 30 May 2011 (BWNS) – In the Middle East, Haifa is known as one of the region's most ethnically and religiously diverse cities, including Jews, Christians, Muslims, Druze ...
RFC 2279
UTF-8, the object of this memo, has the characteristic of preserving ... UTF-16 impacts UTF-8 in that UCS-2 values from the reserved range must be treated ...
Baha'i News: Baha'i Question cited at European Parliament human rights hearing (=?utf-8?B?QmFoY Baha'i News:)
Baha'i World News Service http://news.bahai.org For more information, contact news@bahai.org "Baha'i Question" cited at European Parliament human rights hearing BRUSSELS, Belgium, 31 May 2011 (BWNS) – Victims of religious intolerance are not just people deprived of the right to practice their faith – they suffer abuses in every aspect of ...
RFC 3629
A direct consequence is that a plain ASCII string is also a valid UTF-8 string. ... o UTF-8 strings can be fairly reliably recognized as such by a simple algorithm, ...
Yankees Reliever Joba Chamberlain Likely Done For The Season
This report just filed by The Courant's Paul Doyle from Yankee Stadium: 1 utf-8 0 false false false EN-US X-NONE X-NONE MicrosoftInternetExplorer4 /* Style Definitions */ table.MsoNormalTable {mso-style-name:"Table Normal"; mso-tstyle-rowband-size:0; mso-tstyle-colband-size:0; mso-style-noshow:yes; mso-style-priority:99; mso-style-qformat:yes; mso-style-parent:""; mso-padding-alt:0in 5.4pt 0in 5 ...
UTF-8 Encoding
One of the really nice features of UTF-8 is that it is compatible with nul-terminated strings. No character will have a nul (0) byte when encoded. ...
Home agenda: toys, tech and housewares in Asia
Over the coming weeks the latest trends in toys, houseware and home tech will be showcased at exhibitions in Japan, Hong Kong and mainland China. This series of exhibitions will begin with a toys show in Japan, which attracts the biggest names from the children's toy industry around the world and is seen as a late preview of trends in the months before Christmas. Toys will also be on display ...



















