ITSCJ Information Technology Standards Commission of Japan
English
ITSCJトップ 情報処理学会ホームページ ISO/IEC JTC1 サイトマップ
最終更新日 2006-03-16
解説:文字コード標準化に関する最近の話題

SC 2専門委員会
幹事 関口 正裕(富士通(株))


1. 文字コード標準化の動向

 SC 2では,符号化文字集合(coded character set),いわゆる文字コードの標準化を担当している.伝統的な7ビット/8ビット系の文字コード,新しい多オクテット系の文字コード(UCS),いわゆる制御コードなどを扱っており,従来は分野ごとにいくつかのWGを擁していた.しかし,近年では,7ビット/8ビット系や制御コードについては新しい標準化のニーズがあまりなく,主要な活動は多オクテット系の文字コード,すなわちUCSに関するものだけになっている.

 UCSは,別名Unicodeとしても知られるが,世界中で使われるありとあらゆる文字を,しかも現代の文字だけでなく歴史的な文字も含めて,単独の符号空間に収容し符号化することを意図している.壮大な計画であり,簡単に完成できるものではない.実際,ISO/IEC 10646の最初の版が1993年に発行された時点では,規格が不完全であることを認め,本来含まれるべきだが検討が間に合わず欠けている用字のリストというものが附属書として含まれていた(※).

※ この附属書はその後の改正で削除されたが,それは十分な文字がそろったからではない.もちろん,初版の附属書に記載されていた用字については,その後検討が進められ規格化されているのだが,他方,この規格が普及し実際の情報システムで使われるにつれ,ますます世界中の利用者からの新しい文字の追加のニーズが寄せられているため,リストが長くなる一方で「今後標準化が望まれる用字」を規格の附属書としてメンテナンスすることが現実的でなくなってしまったからにすぎない.

2. UCSへの文字の追加

 UCSへの文字の追加は,ある意味で終わりの見えない作業である.とは言え,初版の発行から10年以上が経過し,現代の主要な言語に必要な文字については,ほぼ規格化が完了していると言ってよいと思われる.実際,ここ数年SC 2が新規に追加した文字の大半は,次の三つのカテゴリに属すものであった:

  1. いわゆる少数民族の人たちが用いる,利用者が少ない言語・表記体系に特有の用字.
  2. 特定の学術分野などでだけ用いられる,利用者が限定された記号類.
  3. 現在は使われなくなった,古代の文字.

 このうち (2) と (3) は,専門家が専門家のために必要とする文字と言えるだろう.標準化の作業でも,その文字を必要とする分野の専門家が自ら作業している.(例えば,古代エジプトのヒエログリフはエジプト学の研究者,楔形文字の標準化ではメソポタミアを専門とする考古学者などが中心となった.)われわれ文字コード屋としては,分野の専門家が「変なこと」をやらないように見張っていれば標準化は進む.

 このパターンからはずれるのが (1) で,実際に文字を必要としている人たちの大半は情報リテラシも低く,自助努力ではことが進まない場合も多い.しかし,外部の専門家だけの作業では,実際のその文字の利用者のニーズが的確に反映されないおそれもある.ところが,民族の言語をパソコンで扱えないという状況が情報リテラシを低くしている原因という側面もある(例えば,ワープロでも電子メールでも英語しか扱えないとしたなら,日本で現在のようにパソコンが普及することはなかっただろう,というような意味で)ので,慎重に構えていればいいというわけでもない.

 JTC 1では,標準化活動のmarket relevanceということが言われ,ともすればビジネスに直結しない分野の標準化活動に否定的な見解もあるようだが,デジタルデバイドの解消が国際課題として議論されている昨今,微力ながら国際貢献のつもりで努力したいと考えている.

3. 漢字の拡張

 さて,日本でUCSに興味を持っている利用者の大半の関心事は「漢字」であると思われる.最後に,UCSでの漢字の標準化に関する最近のトピックスをいくつか述べる.

3.1 漢字の拡張作業の現状

 1993年に発行された ISO/IEC 10646の初版には,2万字あまりの漢字が含まれていた.よく知られている通り,UCSでは日・中・韓などの漢字圏で使われる漢字を統合しており(CJK統合漢字と呼ばれている),日本で日本語を表記するためには使われることがないようなものも2万字の中に混在していた.UCSの漢字についてもその後熱心に拡張作業が行われ,現在では約7万文字のCJK統合漢字が標準化されている.

 現在は,この7万字に加えて,さらなる拡張作業が行われている.文字数が膨大になってしまったため,従来の手法の延長では整理の作業がうまく進まず,すでに予定よりも1年以上遅れているという状況で,作業方法の見直しを含めて,日本・中国を中心に努力している状況である.

 この7万字という規模のCJK統合漢字と,それに対するさらなる拡張には,従来の,UCS以前の文字コード規格では符号空間の絶対的な大きさが不足するために適用をあきらめていた分野でも標準の文字コードが使われだしているため,従来は表面化していなかったニーズが励起されているという面がある.

 例えば,中国の古典・仏典の研究者の間では,以前から数万字という漢字を扱うニーズが存在したが,それだけの文字数を扱える標準は存在しなかった.そのため,漢籍のデータベースなどは,独自のコード体系に基づいて構築されていた.

 しかしUCSには従来の文字コードが持っていた容量の壁がなく,その意味では,必要な文字を必要なだけ追加することができる.実際,すでに規格化が終了している7万字は,この分野で漢字の「総索引」的によく利用される康煕(こうき)字典の見出し字をすべて包含している.これを利用して,古典文献をフルテキストデータベース化する試みも行われており,その結果,康煕字典にも記載されていない特殊な漢字の符号化のニーズが現れているのである.

3.2 国際漢字サブセット (IICORE)

 ところで,あれも必要,これも必要,ということで次々と漢字を追加した結果,少々文字数が増えすぎたという面があることも否めない.この文脈でしばしば主張されることの一つは,あまりにも多い文字数は,小型化・低価格化が強く要求される,家電製品や携帯情報機器などの分野でのUCSの利用の妨げになっている,というものである.日本には例えば JIS X0208という規格があり,そこに含まれる7000文字足らずの漢字で日常的に困ることはほとんどないのに,というものである.

 そこで登場したアイディアが,用途を限定することで,文字数を減らしたサブセットを既定する,という考え方である.UCSの特長の一つは,同一の文字コードが国際的に共通に使えるという点であり,国内規格に立ち返ったのでは国際的に共通というメリットが失われる.そこで,国際共通という利点を維持したまま,一般利用者が日常的に必要とする文字に限ることで,文字数を減らそうというものだ.

 このアイディアは,情報処理学会試行標準の形で,最初IPSJ-TS0005として提案され,その後IPSJ-TS0007などもインプットとして国際的に検討され,IICOREとして結実した.IICOREは,漢字圏で日常的に使われる漢字を集め,国際的に共通に使えるサブセットとして選定したもので9810文字を含んでいる.ISO/IEC 10646:2003/Amd.1:2005の一部として,昨年の11月に正式に国際規格となった.現在は,まだIICOREに基づく実装は登場していないようだが,今後の実際の製品での活用が期待されている.

3.3 中国古代文字 (甲骨文など)

 別の話題として,厳密には漢字ではないが,漢字の先祖にあたる中国古代の文字の標準化も始まっている.具体的には,甲骨文,金文,篆 (てん) 文などが対象になっている.甲骨文というと,漢字の由来を勉強すると登場することもあり,我々日本の一般人にもある程度のなじみがある.また篆文は実印を彫ってもらうとみかけるなど,現代生活と無縁でもない(※).ただ,日常生活で甲骨文や篆文を使うことはなく,本稿の2.で示した3分類では,間違いなく(3)にあたる.

※ もっとも,現代のはんこ屋さんが彫る篆文は,現代人に違和感がないように一部アレンジされていて,学術的な意味での,本来の篆文とはずれがあるようだ.

 この活動はまだ予備段階である.当初はUCSで規格化済みの漢字(CJK統合漢字)との関係の議論が行われたが,これについては結局,同じ用字の異なる字体という考え方での符号化には無理があるというコンセンサスになった.現在は符号化の対象となる文字の分類整理方法についての議論が行われている.

 本件は中国語圏の研究者が中心となって作業が進められているが,日本も貢献が期待されている.


BackPage Top

社団法人 情報処理学会 情報規格調査会
Copyright(C) 2000 Information Processing Society of Japan All Rights Reserved
スタッフへのメールはこちらへ