nDiki

2004年6月13日 (日)

UTF-8 でエンコードされた文字列の最後の文字

バイト列の後ろから、UTF-8 でエンコードされた1文字を取り出すの面倒かなと思ったら簡単だった。

後続バイトは必ず 10xxxxxx であるので、後ろからスキャンしてそれ以外 (0xxxxxxx または 11xxxxxx) がきたらそれが最後の文字の最初のバイト。

よくできている。

[ 6月13日全て ]

About

Process Time: 0.023417s / load averages: 0.44, 0.43, 0.42