UTF-8の冗長なエンコードとは何で、なんでそれがセキュリティ的に危ないのか？を文字コード知識レヴェル3くらいの凡プログラマが考えてみる

何故かあたり前にならない文字エンコーディングバリデーション | yohgaki's blog
ってあるように、いまいち文字コードの不正な判定による危険性ってのが分かってない。

SJISの問題は、（2/3）SQLインジェクションを根絶！セキュア開発の極意 - 第5回■注目される文字コードのセキュリティ問題：ITproの記事がわかりやすかった。

というか、やっぱりPHP使ってると誰でも一度は「なんじゃこの『￥』は？」って思うもんなんで。

なるほど、確かに↓の図のように「あるバイト」が2つの意味を持つっていう文字コード形態はやばいんだなと。

EUC-JPはそんなことはしないで、1つのバイトには1つの意味しか取らせない。

だけど、これでも文字化けが起こることがある。経験的には、「マルチバイトをXX文字で切り落としたい」とかやった場合。ちゃんと文字コードを判定してくれるPHPでいえばmb_substr何かを使えば問題ないけど、バイト数で切っちゃうsubstrだと、奇数文字で切っちゃう時は1文字が半分にちぎれる可能性がある。

んー、じゃあUTF-8は何が危ないの？

そのあたりの問題とか、他言語で文字マップ領域が被るっていう問題を解消したのがUincodeで、その実装の一つであるUTF-8なら問題ないんじゃないの〜っていう感じなんだけど、それは違うみたい。

それが書かれた記事が「第4回 UTF-8の冗長なエンコード：本当は怖い文字コードの話｜gihyo.jp … 技術評論社」っていう記事。

この記事を指して最初に引用したohgakiさんのブログでは

このよう事は簡単に理解できると思っていたので

と書かれているが、これ全然簡単じゃないよ・・・って感じで色々考えてみたのがこのエントリ。（前置き長っ）

あくまで、「そうなんじゃないかな〜」って自分が考えただけなんで、間違ってたら突っ込みなどどうぞ。

そもそも、UTF-8ってどうやって文字を判別してるのか？

UTF-8は、マルチバイト1文字を表すのに、1バイト〜4バイトの可変なバイト数領域を使う。

固定にすれば良いのに、何でそんな面倒なことするんかっていうと、ASCII文字と互換性を持たせるためらしい。

で、第4回 UTF-8の冗長なエンコード：本当は怖い文字コードの話｜gihyo.jp … 技術評論社によると、

Unicode文字範囲 UTF-8でのバイト列

U＋0000〜 U＋007F 0xxxxxxx
（00〜7F）

U＋0080〜 U＋07FF 110xxxxx　　10xxxxxx
（C2〜DF）　（80〜BF）

U＋0800〜 U＋FFFF 1110xxxx　　10xxxxxx　　10xxxxxx
（E0〜EF）　（80〜BF）　　（80〜BF）

U＋10000〜
U＋10FFFF 11110xxx　10xxxxxx　10xxxxxx　10xxxxxx
（F0〜F7）（80〜BF）（80〜BF）（80〜BF）

Unicode文字範囲	UTF-8でのバイト列
U＋0000〜 U＋007F	0xxxxxxx （00〜7F）
U＋0080〜 U＋07FF	110xxxxx　　10xxxxxx （C2〜DF）　（80〜BF）
U＋0800〜 U＋FFFF	1110xxxx　　10xxxxxx　　10xxxxxx （E0〜EF）　（80〜BF）　　（80〜BF）
U＋10000〜 U＋10FFFF	11110xxx　10xxxxxx　10xxxxxx　10xxxxxx （F0〜F7）（80〜BF）（80〜BF）（80〜BF）

ってなってる。

自分が、「単に1と0のデータを文字として出力するマシン」になったつもりで、「このデータはUTF-8の文字列ですよ」ってデータが来た場合に

「あ、これは『あ』だ」
「これは、『\』だ」

とか見分けるために、「何バイトで1文字を表現してるのか」を判定するにはどうしたらいいかを、↑の表を見て考えてみた。

すると、UTF-8はすこぶる簡単に「これは3バイトで1文字だな」とかが分かるようになっている。

最初の1バイトの1ビット目が0なら「1バイトで1文字」。
最初の1バイトの1ビット目と2ビット目が1なら「2バイトで1文字」なので、次の1バイトも合わせて1文字を出力する。
最初の1バイトの1〜3ビット目が1なら「3バイトで1文字」なので、次と次の次の2倍とも合わせて1文字を出力する。

という感じ。

つまり、最初の1バイトは「何バイト一緒に食えばいいか」というのを教えてくれてる。

そして、「10」のビットで始まるバイトは「文字の中間」を構成するバイトということになる。

ところで、上のテーブルは110xxxxx　（C2〜DF）ってなってるけど、C0〜DFじゃないかな？）

冗長なエンコードとは？

じゃあ、冗長なエンコードって何？ってことなんだけど。

それは「本来なら1バイトで済むデータを3バイト必要なように見せる」っていうことだと思う。

その例として、第4回 UTF-8の冗長なエンコード：本当は怖い文字コードの話｜gihyo.jp … 技術評論社によると、「/」を挙げているのだけど。

正しいエンコード 0x2F

不正なエンコード
0xC0 0xAF　　（2バイト表現）
0xE0 0x80 0xAF　　（3バイト表現）
0xF0 0x80 0x80 0xAF　（4バイト表現）

正しいエンコード	0x2F
不正なエンコード	0xC0 0xAF　　（2バイト表現） 0xE0 0x80 0xAF　　（3バイト表現） 0xF0 0x80 0x80 0xAF　（4バイト表現）

何でこんなんが全部「/」として認識されるんだ！？って感じだけど、実際にやってみる。PHPで。

<?php
echo $sl1 = hex2bin('002f')."\n";
echo $sl2 = hex2bin('c0af')."\n";
echo $sl3 = hex2bin('e080af')."\n";

function hex2bin($hex_str)
{
	return pack("H*" , $hex_str);
}

ってやってコマンドラインから実行してみる。ターミナルの出力はUTF-8。なので、ターミナルが「UTF-8である」と解釈された文字が私の目に映るはず。

果たして

というように、3つの「/」が出力された。

じゃあ、これが本当にバイナリとして同じデータなのかどうかを確かめてみる。簡単に、別の文字コードに変換してみればいい。

EUC-JPに変換して出力してみると、

ってなった。

つまり、最初の「/」は本物の1バイトのスラッシュだけど、後の2つは1バイトのスラッシュではないということ。

SJISに変換しても

となる。

これは何が悪いのかというと、それは「変なUTF-8 エンコードを見抜けないターミナル」（このキャプチャの場合はTeraTermPro UTF-8版）なんだけど、世の中にはそういうアプリが多いらしい。それはブラウザも多分にもれず、FirefoxやI.Eも同じ勘違いをしてしまうらしい。

なんでそんな勘違いをするの？

じゃあ、何でそんな勘違いを？って感じだけど、それはなんとなくだけど・・・
第4回 UTF-8の冗長なエンコード：本当は怖い文字コードの話｜gihyo.jp … 技術評論社にある

の絵を見て、「0xE0 0x80 0xAF」を処理するときの動作として。。。

Firefox「現在の文字コードはUTF-8。次のバイトは、0xE0 ・・・1110....とすると3バイトで1つの処理だな」
Firefox「3バイトを1つに並べてみると、1100000 10000000 10101111・・・・」
Firefox「？？？最初の2バイトは意味のある部分のビットが全て0・・・最後の1バイトは『0101111』これは『00101111』を表してるのかな?」

ということなんだろうか？

この辺はよーわかりませんが、なんとなくそんな感じかも。

これがXSSにつながるって言うのは

要するに、「3バイト食いますよ〜」っていうフラグを立てておきながら（つまり1100000のバイトを送る）、2バイトしか送らなかった場合、次の文字も巻き込んでしまうんじゃないかってことかな？これって、EUC-JPやSJISであったのと同じ問題で。それがUTF-8でも起きるっていう。

そうすると、HTMLの閉じタグとかクォートを食っちゃえばXSSが簡単に成立するてことで。

しかし、これを「このよう事は簡単に理解できると思っていたので、」と言っちゃうohgakiさんには

　　　　　　r　‐､
　　　　　　| ○ | 　　　　　　　　r‐‐､
　　　　　_,;ﾄ - ｲ、　　　　　　∧l☆│∧ 　セキュリティ エバンジェリストの諸君！
　　　 （⌒`　　　 ⌒・　 　　¨,､,,ﾄ.-ｲ/,､ l 　われわれPHPerにとって大切なのは
　　　　|ヽ　 ~~⌒γ⌒）　r'⌒　｀!´ `⌒） 　すぐ使えるサンプルか、コピペで動くコードだけだ。
　　　│　ヽー―'^ー-'　（ ⌒γ⌒~~　/| 　PHPerを買いかぶらないでもらいたい
　　　│　　〉　　　 |│　　|｀ー^ｰ― r'　|
　　　│　/───|　|　　|/　| 　l　　ﾄ､ |
　　　|　 irｰ-､ ｰ　,}　|　　　 / 　　　　i
　　　| /　　　｀X´　ヽ 　　 / 　 入

と、言いたい。

tohokuaikiのチラシの裏

技術的ネタとか。