SC 2 専門委員会(符号化文字集合)
第1 種専門委員会
SC 2 専門委員会(符号化文字集合/Coded Character Sets)
委員長 織田 哲治(東京工業大学)
1. スコープ
SC2 専門委員会は,符号化文字集合の国際標準化を担当する国際組織 ISO/IEC JTC1/SC 2(以降 SC 2)に対応する日本国内の組織である.SC 2 専門委員会が担当している「符号化文字集合」は,一般的には「文字コード」として知られているもので,メインフレームや PC,スマートフォンといった IT 機器で扱う文字の集合とそれらに対してどのようにコードポイント(あるいは符号位置)を割り当てるかの仕様のことである.
ユーザが文字データの情報交換をより正しく効率的に行えるようにするためには,ユーザのニーズを十分に満たした文字コードを,どの IT 機器も同じように実装することが望ましい.そのために,世の中の共通のニーズに基づいた文字コードを標準規格として定めることは重要である.
文字コードと言えば,古くは 7 ビットの ASCII コードや ISO/IEC 646 規格に始まり,その後の 8 ビットの文字コード ISO/IEC 8859,また日本国内では,JISX0208 規格,いわゆる第一,第二水準がよく知られているが,現在は世界中の言語で使われている文字を一つの文字コードに収めた国際符号化文字集合ISO/IEC 10646(以降 10646 規格)[1] が中心となっている.業界標準として知られているユニコード(Unicode Standard)[2] はこの 10646 規格と同じ文字コードを定義している.
SC 2 専門委員会の現在のスコープは,この 10646規格に日本の市場ニーズを反映させること,および世界共通の文字コードにふさわしい標準規格として保守,管理していくことである.
現在 SC 2 傘下には,ただ一つの WG として WG 2があり,10646 規格を開発している.WG 2 の傘下には,主に漢字使用国が集まって UCS の中で漢字に関連する事柄を担当する表意文字アドホックグループ(Ideographic Research Group, 以降 IRG)がある.
ユーザが文字データの情報交換をより正しく効率的に行えるようにするためには,ユーザのニーズを十分に満たした文字コードを,どの IT 機器も同じように実装することが望ましい.そのために,世の中の共通のニーズに基づいた文字コードを標準規格として定めることは重要である.
文字コードと言えば,古くは 7 ビットの ASCII コードや ISO/IEC 646 規格に始まり,その後の 8 ビットの文字コード ISO/IEC 8859,また日本国内では,JISX0208 規格,いわゆる第一,第二水準がよく知られているが,現在は世界中の言語で使われている文字を一つの文字コードに収めた国際符号化文字集合ISO/IEC 10646(以降 10646 規格)[1] が中心となっている.業界標準として知られているユニコード(Unicode Standard)[2] はこの 10646 規格と同じ文字コードを定義している.
SC 2 専門委員会の現在のスコープは,この 10646規格に日本の市場ニーズを反映させること,および世界共通の文字コードにふさわしい標準規格として保守,管理していくことである.
現在 SC 2 傘下には,ただ一つの WG として WG 2があり,10646 規格を開発している.WG 2 の傘下には,主に漢字使用国が集まって UCS の中で漢字に関連する事柄を担当する表意文字アドホックグループ(Ideographic Research Group, 以降 IRG)がある.
2. 参加国
SC 2 の現在の参加国は 29 ヶ国であるが,その中で主として活動しているのは,米国,日本,中国,カナダ,英国,アイルランドといった国々である.日本は SC 2 の議長および幹事国を継続的に引き受けるなど主導的な役割を果たしている.現在の SC2 議長は田代秀一氏(開志専門職大学)である.なお,SC 2 には,ユニコードを開発しているユニコードコンソーシアムがリエゾンメンバとして登録されており主に絵文字や少数民族で使われている文字に関して積極的に活動している.
3. 10646 規格の変遷と最近の日本の活動
10646 規格は 1993 年に最初の版が出版されて以降,文字の追加を中心とした改訂が継続的に行われており,2017 年12月に出版された最新の第5版には,全部で約 13 万文字(そのうち漢字が約 9 万文字)が収められている.この中で,日本語の文章で用いられる漢字としては,JIS X0208 規格や JIS X0213 規格の漢字(いわゆる第 1~4 水準)に加えて,電子行政システムで必要な住基ネット統一文字(住民基本台帳ネットワークで使われる文字集合)および戸籍統一文字に含まれている人名や地名の漢字がある.その後,この第 5 版に対して 2018 年度に追捕 1 および 2019年度に追補 2 がそれぞれ発行された.
2020 年度にはこれら二つの追補に加えて新たに文字の追加を行った第 6 版が発行された.この第 6 版には,日本の市場に関係する仕様としては,日本の元号「令和」の合字[*1]のほか,電子行政システム用のCJK 統合漢字 2 文字,および附属書 A に定義されていた電子行政システム用文字集合の組(Collection)[*2] である ”MOJI-JOHO-KIBAN IDEOGRAPHS2016” の 後 継 として ” MOJI-JOHO-KIBANIDEOGRAPHS-2018”が含まれている.
以下では,SC 2 専門委員会の 2020 年度の活動について紹介する.
a) 委員会活動に関して
甚だ残念なことではあるが,SC2 においても 2020年度は COVID-19 の影響で活動が大きく制限された.他の委員会と同様に国内での専門委員会や ISO の国際会議はリモート開催で行われた.SC2 では,新しい文字の追加など10646規格の技術的な審議はSC2傘下の WG2 会議で行っているが,ここでは,時に審議の対象となる文字の形を細部にわたるまで確認しながらの検討が必要となるために対面での会議が許されない中では WG2 会議を開催できず,10646 規格の拡張のプランも立てられなかった.8月に開催された SC2 総会では,役員の任命やプロジェクトの進捗管理といった手続きに関係する審議だけを行うこととなった.
b) 次期バージョンの開発に関して
しかしながら,この SC2 総会において,ユニコードの次期バージョン Unicode 14.0 の開発スケジュール(2021 年 9 月発行予定)が報告されたことを受けて,ユニコードとの同期を保つ観点から,10646 規格の新規プロジェクトについて話し合うことを日本NB から提案し,リモートでのアドホック会議を開催することが決められた.ただ,対面での WG2 会議の開催の予定を立てられなかったことなどから 10646規格の新規プロジェクトの開発をなかなか決定できなかったため,通常ユニコードコンソーシアムは次期バージョンの開発を 10646 規格の開発プロセスと並行して行ってきたが,今回はユニコードが 10646 規格に先んじて開発を進めることになってしまった.日本 NB としては,やむを得ない措置として 2021 年 2月 9 日から行われた Unicode 14.0 ドラフトの公開レビューに参加した.
2020 年度にはこれら二つの追補に加えて新たに文字の追加を行った第 6 版が発行された.この第 6 版には,日本の市場に関係する仕様としては,日本の元号「令和」の合字[*1]のほか,電子行政システム用のCJK 統合漢字 2 文字,および附属書 A に定義されていた電子行政システム用文字集合の組(Collection)[*2] である ”MOJI-JOHO-KIBAN IDEOGRAPHS2016” の 後 継 として ” MOJI-JOHO-KIBANIDEOGRAPHS-2018”が含まれている.
以下では,SC 2 専門委員会の 2020 年度の活動について紹介する.
a) 委員会活動に関して
甚だ残念なことではあるが,SC2 においても 2020年度は COVID-19 の影響で活動が大きく制限された.他の委員会と同様に国内での専門委員会や ISO の国際会議はリモート開催で行われた.SC2 では,新しい文字の追加など10646規格の技術的な審議はSC2傘下の WG2 会議で行っているが,ここでは,時に審議の対象となる文字の形を細部にわたるまで確認しながらの検討が必要となるために対面での会議が許されない中では WG2 会議を開催できず,10646 規格の拡張のプランも立てられなかった.8月に開催された SC2 総会では,役員の任命やプロジェクトの進捗管理といった手続きに関係する審議だけを行うこととなった.
b) 次期バージョンの開発に関して
しかしながら,この SC2 総会において,ユニコードの次期バージョン Unicode 14.0 の開発スケジュール(2021 年 9 月発行予定)が報告されたことを受けて,ユニコードとの同期を保つ観点から,10646 規格の新規プロジェクトについて話し合うことを日本NB から提案し,リモートでのアドホック会議を開催することが決められた.ただ,対面での WG2 会議の開催の予定を立てられなかったことなどから 10646規格の新規プロジェクトの開発をなかなか決定できなかったため,通常ユニコードコンソーシアムは次期バージョンの開発を 10646 規格の開発プロセスと並行して行ってきたが,今回はユニコードが 10646 規格に先んじて開発を進めることになってしまった.日本 NB としては,やむを得ない措置として 2021 年 2月 9 日から行われた Unicode 14.0 ドラフトの公開レビューに参加した.
4. おわりに
以上 SC 2 専門委員会の 2020 年度の活動について紹介した.今後 10646 規格の第 6 版の追補 1 の開発が進められるが,今後も対面での会議を行えないという状況が続いた場合,どのように技術的な検討を行っていくかが課題となる.
参考文献
[1]http://standards.iso.org/ittf/PubliclyAvailableStandards/c069119_ISO_IEC_10646_2017.zip
[2]https://www.unicode.org/versions/Unicode13.0.0/
本文注
[*1]複数の文字を合成して一文字にしたもの
[*2]文字種ごとにその典拠情報などを記したファイルや附属書 A で定義された部分集合内の文字のリストファイル
参考文献
[1]http://standards.iso.org/ittf/PubliclyAvailableStandards/c069119_ISO_IEC_10646_2017.zip
[2]https://www.unicode.org/versions/Unicode13.0.0/
本文注
[*1]複数の文字を合成して一文字にしたもの
[*2]文字種ごとにその典拠情報などを記したファイルや附属書 A で定義された部分集合内の文字のリストファイル