エンジニア、クリエイターのための派遣求人情報ラボラトリー
キャリア・ラボ IT TOP > IT Columns > 文字コードで世界に出る〜さらば!文字化け〜 > 第5回
IT Columns 【文字コードで世界に出る〜さらば!文字化け〜】
ヨーロッパでは「ISO 8859-1」が主流
05

 前々回・前回と、文字コードの基本とも言える「ASCII(アスキー)」を取り上げました。世界中、どの国にメールを送る場合でも、ASCIIで規定されているアルファベットだけを使って書けば、そのメールを受け取った側で文字化けすることはないハズです。
  しかし、実際には英語の26種類のアルファベットだけでは用が足りない言語も少なくありません。日本語もそのひとつですが、日本の話に入る前に、今回はフランスやドイツなどの西ヨーロッパの状況を見てみましょう。

ヨーロッパからのメールで使われている文字コードを確認する

 読者の皆さまの中にも、SPAMメール(迷惑メール)で悩んでいる方は少なくないと思います。わたしの元にも毎日、ひじょうに多くのSPAMメールが届きます。あまりに多いので、ここ半年ほど、気付いた範囲でコレクションに努めてきました(笑)が、その数およそ9000通!

 今朝も、何通かのSPAMメールが届きました。その内の1通は、わたしに「50万ドルもの低利子のローンを組んでくれる」というありがたい(?)メールでした。

【図1】
今朝届いたSPAMメールのひとつ
 このSPAMメール、ふつうに英語で書かれていますが、いったい、どこから送信されたものなのでしょうか?
 Outlook Expressでは、受信メールに送信者のメールアドレスのほかに、送信者のニックネームが設定されていると、メール一覧の「送信者」欄にそのニックネームだけを表示する仕様となっています。こういった場合、送信者のメールアドレスを確認するには、このメールのヘッダー情報を確認します。
 メールのヘッダー情報を確認するには、メール一覧の中で調べたいメールを右クリックして、ショートカットメニューから「プロパティ」を選択します。
【図2】
ショートカットメニューから「プロパティ」を選択
 すると、このメールのヘッダー情報を表示するプロパティ画面が開きます。
 「全般」タブにはこのメールの件名・種類・サイズ・重要度・送信日時・受信日時などの概要情報が表示されていますので、「詳細」タブをクリックして、「詳細」タブに切り替えます。
【図3】
SPAMメールのヘッダー情報を確認
 「From:」の項目にこのメールの送信者のニックネームとともにメールアドレスが記述されていますが、「@altavista.fr」となっています。「fr」はフランスをあらわす略語ですので、どうもフランスから送信されたもののようです(実際にはメールアドレスは簡単に詐称できてしまいますので、メールアドレスだけから送信元を特定することはできませんが、ここでは深入りしないこととします)。

 もう1箇所、注目してほしいのがその上にある「Content-Type:」というヘッダー項目です。「Content-Type:」項目はこのメールの種類をあらわすヘッダーで、前半部の「text/plain」はこのメールが(HTMLメールなどではなく)ふつうのテキスト形式のメールであることをあらわしています。後半部の「charset=」というのは文字コードのことで、このメールが「iso-8859-1」という文字コードで書かれていることをあらわしています。

「ISO 8859-1」は西ヨーロッパの共通文字コード

 さて、この連載の第3回で述べた通り、ASCIIは英語で使われているアルファベットや数字・記号を7ビットで規定した文字コードでした。フランス語やドイツ語では英語にはない「ü」や「ß」といったアルファベットもごくふつうに使用しますが、これらの各国語固有の文字を追加しようにも、ASCIIの7ビットの領域にはもう空きスペースがありませんでした。
 そこで、国際的な規格を制定するISOにおいて、文字を収める領域を8ビットに拡大して、その前半部にはASCIIをそのまま収めて、残りの後半部に西ヨーロッパの各国語で使われているアルファベットや記号を収めた、新しい文字コードが1987年に開発されました。これが、前掲のメールで設定されていた「ISO 8859-1」です。

 ISO 8859-1では図4のような文字が規定されています。より細かく見たい方は、「ISO 8859-1」といったキーワードでWeb検索してみてください。ISO 8859-1の文字一覧を載せたWebページが山ほど見つかるハズです。

【図4】
「ISO 8859-1」文字コード表
 ISO 8859-1によって「ü」や「ß」といった各国語固有の文字もコンピュータで簡単に扱えるようになりましたが、それだけではありません。前述した通り、その後半部にはフランス語やドイツ語など、西ヨーロッパの各国語で使われている固有文字がまとめて収録されていますので、(英語と)フランス語とドイツ語といった複数言語が入り交じった文書を簡単に作成できるようになったことも、ISO 8859-1の大きなメリットです。
  ヨーロッパ各国は1980年代の半ば以来、EUとして政治的・経済的に統合することを目指して邁進してきましたが、ISO 8859-1はそういった時代背景の中で必然的に産まれた文字コードと言ってもよいのではないでしょうか。

 ちなみに、末尾に「-1」が付いていることからもわかる通り、ISO 8859-1はISO 8859シリーズの1つです。西ヨーロッパ各国語の文字を規定した「8859-1」のほかに、東ヨーロッパ各国語の文字を規定した「8859-2」、南ヨーロッパ各国語の文字を規定した「8859-3」、北ヨーロッパ各国語の文字を規定した「8859-4」、アラビア語の文字を規定した「8859-6」、ギリシア語の文字を規定した「8859-7」、タイの文字を規定した「8859-11」など、現時点で15種類もの文字コードが開発・発行されています。

「ISO 8859」シリーズの規格書そのものはISOのWebサイトまたは日本規格協会のWebサイトにて冊子形態またはPDFにて購入することができます。
ページトップ