エンジニア、クリエイターのための派遣求人情報ラボラトリー
キャリア・ラボ IT TOP > IT Columns > 文字コードで世界に出る〜さらば!文字化け〜 > 第8回
IT Columns 【文字コードで世界に出る〜さらば!文字化け〜】
世界で初めて漢字を収録した2バイト文字コード
08

 さて、いつまでも英字やカタカナにとどまっていたら、日が暮れてしまいますので、漢字の話に移りましょう。ユーザからの要望にせよ、技術的なトラブルにせよ、コンピュータの世界で文字コードが問題となるのは漢字をめぐるケースが多いのではないでしょうか。漢字を取り巻く文字コードの実情を見ると、相当込み入った複雑な状態となっていますが、歴史的な経緯が原因となっていることも少なくありませんので、一歩一歩、紐解いていきたいと思います。
  今回は、JIS C 6226すなわち「JIS漢字」の誕生に注目してみましょう。

世界で初めて漢字を収録した文字コードが誕生

 前々回〜前回の2回に渡って、カタカナを扱う文字コードが開発された旨を紹介しましたが、カタカナだけを扱うJIS C 6220は当面の策であって、究極の目標は日本語の表記に欠かせない文字――ひらがなと漢字をすべて収録した文字コードの開発でした。
 この目標が達成できたのはJIS C 6220から遅れること9年、1978年。ひらがなと漢字を収録した文字コードとして「JIS漢字」(正式名称は「「JIS C 6226-1978 情報交換用漢字符号系」」が開発されました。

 世界で初めて漢字を収録した公的な文字コードであり、以来、コンピュータなどの情報機器で漢字を扱ううえでの標準となっています。近年、Unicodeの普及などで、「標準」が複雑な様相を呈してきていますが、いくつかある「標準」の中でももっともベースとなるのがJIS漢字であることは今でも全然、変わっていません。

 JIS C 6226で規定されたのは、6,349字の漢字を含めて、ひらがな・カタカナ・ローマ字・ギリシア文字・記号など、ぜんぶで6,802字でした。
 JIS漢字は、その後、1983年・1990年・1997年と三度に渡る改定を受け、その間に文字数も若干増えて、中身も微妙に変わっていますが、その話は次回以降に。ここでは、最新版の「JIS X 0208:1997 7ビット及び8ビットの2バイト情報交換用符号化漢字集合」で規定されている文字数を掲げておきます(図1)。

【図1】
「JIS漢字」の内訳

 「最新版のJIS X 0208:1997」と記したのは、JIS全体の構成が見直された過程で、あらたに「X」分類ができて、「JIS C 6226」という規格番号が「JIS X 0208」に変更になったものです。

 「JIS漢字をぜんぶ見てみたい」という方は、Googleなどの検索エンジンを用いて「JIS漢字 リスト」
「X0208 リスト」といったキーワードで検索してみてください。JIS漢字の一覧表がいくつも見つかるハズです
(図2)。

【図2】
「JIS漢字」の一覧表

漢字は第一水準と第二水準に分類

 さて、JIS C 6226では6,349字の漢字が規定されましたが、この漢字はどうやって選ばれたのでしょうか?
 漢字を収録した公的な文字コードとしてはJIS C 6226が初の成果でしたが、実際にはその前からコンピュータメーカー各社は独自に文字コードの開発を進めていましたし、新聞社や生命保険会社などもそれぞれ独自に文字コードを定めて、自社における漢字処理を行おうとしていました。

 そこで、JIS漢字制定時には、日本IBMや富士通などのメーカーが独自に定めた文字コード表、生命保険会社が顧客をコンピュータで管理するために定めた漢字表、電話番号簿を印刷するために用意した活字の種類、新聞社の文字コードなど、実に37点に及ぶ漢字表が集められ、それらの重複調査を行ったうえで、28点以上に重複掲載されていた漢字約2,000字をベースに、さらにJISの市区町村コードの地名漢字などを追加して、第一水準の漢字2,965字が選定されました(図3)。

【図3】
MS-IMEのIMEパッドでJIS第一水準漢字を確認する

 第二水準としては、『情報処理学会標準漢字コード表』・『行政管理庁基本漢字』・『日本生命人名漢字表』・『国土行政区画総覧』の4つの漢字表に重複して掲載されている漢字の内、第一水準の漢字を除いた3,386字が選定されました(図4)。

【図4】
MS-IMEのIMEパッドでJIS第二水準漢字を確認する

 第一水準の漢字を眺めると、常用漢字の前身にあたる当用漢字表の漢字がすべて入っている点等、実生活の中で使う漢字が並んでいて、割と身近に感じますが、一方の第二水準の方はと言うと、見慣れない漢字も少なくありません。
 そのため、「JIS漢字って、いったいどういう基準で選ばれたのだろうか?」と疑問に感じる向きもあるようですが、第一水準と第二水準では選定方法自体が異なっており、第二水準は明らかに人名や地名で使われている漢字に重きを置いて選ばれたことが、そのように感じる一因となっているのではないかと思います。

 ちなみに、JIS漢字選定時に人名や地名に使われている漢字が重視されたのは、当時、コンピュータで漢字を必要とするニーズと言えば、もっぱら、保険会社などが顧客のデータベースを構築したり、企業の給与システムで人名を漢字で印刷したりするためなどに限られていたためと思われます。今日のように、誰もがコンピュータを用いて文書を作成したり、メールを書いたり、Webページを作成したりする時代がくることは―――まさに「想定外」だったのではないでしょうか。

ページトップ