なぜ半角カナは嫌われるのか(メモ) このエントリーを含むはてなブックマーク



このメモの内容もかなり古くなってしまいました。歴史的価値だけはまだあるかもしれないので、このまま置いておきます。

くれぐれも論争の根拠にこのメモを使わないようにお願いします。

俗に言う『半角カナ』とは

JIS X 0201の右半面(カタカナ集合)。 この文字が漢字のサイズの半分(横が半分で縦はそのまま)で表示される端末を 主に利用しているユーザーがこう呼びはじめた。

『半角カナ』と呼ぶのがなぜ不正確なのか

文字のコードと表示される文字の大きさ(や、色や諸々)には関係はありません。 ですから、JIS X 0201カナを指して『半角カナ』と呼ぶのは間違いです。 MacintoshやWindowsなどで、『プロポーショナルフォント』を利用した場合、 『半角』という大きさが何を指すかを考えてみてください。

ワープロなどで字の大きさについて『半角』という表現をする場合がありますが、 これはこれで問題ない表記だと思います。ただし、この『半角』は文字の大きさを 指しているだけで、文字コードについては何も言えない事に注意してください。 一部ワープロでは、『半角漢字』や『半角かな』が存在します。

これらのことがごっちゃになって、『半角カナ』という表現で、『表示が漢字の 横半分』・『JIS X 0201カタカナ集合』を指す人がいます。残念ながら、変な かな漢字変換ソフトウェアのマニュアルや、パソコンの解説書や雑誌でもこの 誤りはまかり通っています。

文字コードについて

もっと詳しい解説が下記のページにあります。ここでははしょって説明します。

複数の人でメッセージをやりとりする場合、双方で通信に使う文字コードと 文字のエンコーディング方法をあらかじめ決めておく必要があります。 文字コードというのは、文字の1つ1つについて対応する数値を定めたもので、 例えばASCIIコードでは、『A』は『4/1』(16進で0x41、十進で65)という数値が 割り振られています。

元々通信の世界は7bitを単位として作られています。上記の文字コードも、 7bitの範囲に納まるように 2/1〜7/14 (16進で0x21〜0x7e、十進で33〜126)の 94文字単位で制定されています(2/0〜7/15までを使った96文字集合もある)。

漢字など大きな文字集合は94文字では納まりませんので、 上記のコードを2つ利用して(2バイト使って)、 94*94の大きさの表に定義されています。 日本で利用されている文字集合として代表的なものにJIS X 0208 (JIS漢字)、 JIS X 0212 (JIS補助漢字)が存在します。

文字のエンコーディング

言語や国が違うと文字集合も違うものを使った方が便利です。 また、日本語を利用する場合、ASCIIとJIS X 0208、JIS X 0212を混在させて 利用できると便利です。

異なる文字集合を識別したり、複数の文字集合を同時に使う場合の国際的な 拡張方法としてISO-2022 (JIS X 0202)が存在します。実際に日本語を扱う場合には、 ISO-2022に従って拡張を行なっている日本語EUCやISO-2022-JP、拡張に従っていない 邪悪なシフトJIS(MS漢字)を使います。(ISO-2022-JPはISO-2022から逸脱 している部分があります)

例えば、ISO-2022-JPでは、日本語を扱う場合には以下のように文字集合を切替えます (詳細はRFC1554)。

ESC ( BASCII
ESC ( JJIS X 0201-1976 ("Roman" set)
ESC $ @JIS X 0208-1978
ESC $ BJIS X 0208-1983
これは、(他の文字コードから切替えて)ASCIIを利用する場合はASCII文字列の前に ESC ( B を前置し、(切替えて)JIS X 0208を利用する場合には ESC $ B を前置する という意味です。行頭はデフォルトでASCIIであり、行末ではASCIIに戻さねばなりません。

なぜ『半角カナ』はインターネットメールやニュースでは利用できないのか

日本語のメッセージをやりとりするためのエンコーディング方法は、 RFC1554に定義されています。誰でも共通に使える方法は、これ以外には ないことに注意してください。特定の2者が独自のコードを勝手に使うのは可能ですが 不特定な受け取り人が解読できると期待していいのはRFCに定義されている ISO-2022-JP(RFC1468),ISO-2022-JP2(RFC1554)だけです。 そしてこの中にはJIS X 0201カタカナを 扱う方法は定義されていないため、インターネットメールやニュースでは これらの文字を利用することができないわけです。

現在でも規格を勝手に拡張して『半角カナ』(JIS X 0201カタカナ)を 使えるようにした邪悪なソフトがいくつか存在します。しかも、これらの間では エンコーディング方法の統一が取れておらず、大変問題となっています。

大昔からISO-2022-JP2を拡張してJIS X 0201カタカナを扱おうとした試みは いくつかあり、それは ESC ( I を前置する形式でした。なんで、MicroSoftは こんな実装にしたんだか。そりゃ、G1にカナがあると仮定すればこうなるけど...

それ以外の『半角カナ』の欠点は?

まず、『使っていいことは何もない』ことを肝に命じてください。 使いたい人は大抵次のような言い訳をするようです。

表示幅が半分になるので狭いところにも書き込める
フォントのサイズを小さくするのがいいと思います。
それに『半角』のフォントって汚いことが多いし、 『゛』(濁点)や『゜』(半濁点)があるとそんなに場所は小さくならないです。
1バイトで表現できるのでディスクが節約できる。
1バイト節約してどうするんですか。それなら漢字も使わない方がいいですね。
微妙なニュアンスを表現したいときに使い分けたい。
字体が違うと同じ文字でも雰囲気が違って伝わります。字体で伝えようとせずに 文章の中身で勝負した方が無難です。

『半角カナ』を常用していると、使ってはいけない時にもつい使ってしまったり します。普段から使わないのが無難です。

間違って『半角カナ』を使わないためには

いくつか方法が考えられますが、一番いいのは 『日頃から使わない、日本語入力 ソフトウェアで入力できないようにする』ことです。MS-IMEでも『入力を全角にする』 を適切に選べば、そこそこ無難に使えるようです。

電子メールソフトウェアで『半角カナ』を弾くという手もありますが、全ての ソフトウェアがそれに対応しているわけではないし、他のエディタで作った文書を 読み込んだ場合にもチェックが効くとは限りません。文字コードのことを意識せずに いろいろなソフトウェアを使うには入力できなくするのが一番です。 これは、機種依存文字(例えば『(株)』が1文字になっているもの)などでも 言えることです。

FAQ

WWWでは『半角カナ』を利用していることがあるようですが?

WWW(HTTP)での文字のエンコーディングが確立される前に、WWWが流行してしまったため シフトJISや日本語EUCで書かれたHTML文書が多数存在します。そのため、『半角カナ』も (残念ながら)あちこちで使われてしまっているようです。

日本でWWWが流行しはじめたころのWindows/Macintosh環境で日本語化されていない ブラウザを使うとシフトJISであるHTML文書しか読めなかったことも混乱の原因です。

このため、いろいろな問題が生じています。例えば、『ブラウザで 文字コードを判別しないといけない(しかもよく失敗する)』であるとか、 『そのドキュメントを流用してメール等で送ろうとすると変換しないといけない』とか 『Formを使って受け取った文字のコードが特定できない』などの問題です。

できればISO-2022-JPで統一して欲しいのですが、今となっては無理かなあ...

NIFTYでは『半角カナ』が使えました

NIFTYの事は知りません。インターネット上での情報交換についてのみ話をしています。 ただし、注意しないといけないことがあります。

自分の作った文書を多くの人に見てもらおうと思った場合、より厳しい方のルールに 合わせた方がいいでしょう。

ちなみに、NIFTYは@niftyに統合されました。大意は変わりません。

RFCを改訂して『半角カナ』が使えるようにしたら便利だと思います

必要だと思う方が提案すると良いと思います。

参考文献