SC 2 専門委員会 (符号化文字集合)
第1 種専門委員会
SC 2 専門委員会(符号化文字集合/Coded Character Sets)
<2021年度委員会活動報告>
委員長 織田 哲治(東京工業大学)
1. スコープ
SC2専門委員会(以降本委員会)は,符号化文字集合の国際標準化を担当する国際組織ISO/IEC JTC1/SC 2(以降SC 2)に対応する日本国内の組織である.本委員会が担当している「符号化文字集合」は,一般的には「文字コード」として知られているもので,メインフレームやPC,スマートフォンといったIT機器で扱う文字の集合とそれらに対してどのようにコードポイント(あるいは符号位置)を割り当てるかの仕様のことである.
ユーザが文字データの情報交換をより正しく効率的に行えるようにするためには,ユーザのニーズを十分に満たした文字コードを,どのIT機器も同じように実装することが望ましい.そのために,世の中の共通のニーズに基づいた文字コードを標準規格として定めることは重要である.
文字コードと言えば,古くは7ビットのASCIIコードやISO/IEC 646規格に始まり,その後の8ビットの文字コードISO/IEC 8859,また日本国内では,JIS X0208規格,いわゆる第一,第二水準がよく知られているが,現在は世界中の言語で使われている文字を一つの文字コードに収めた国際符号化文字集合ISO/IEC 10646(以降10646規格)[1]が中心となっている.業界標準として知られているユニコード(Unicode Standard)[2]はこの10646規格と同じ文字コードを定義している.
本委員会の現在のスコープは,この10646規格に日本の市場ニーズを反映させること,および世界共通の文字コードにふさわしい標準規格として保守,管理していくことである.
現在SC 2傘下には,ただ一つのWGとしてWG 2があり,10646規格を開発している.WG 2の傘下には,主に漢字使用国が集まってUCSの中で漢字に関連する事柄を担当する表意文字ラポータグループ(Ideographic Research Group, 以降IRG)がある.
ユーザが文字データの情報交換をより正しく効率的に行えるようにするためには,ユーザのニーズを十分に満たした文字コードを,どのIT機器も同じように実装することが望ましい.そのために,世の中の共通のニーズに基づいた文字コードを標準規格として定めることは重要である.
文字コードと言えば,古くは7ビットのASCIIコードやISO/IEC 646規格に始まり,その後の8ビットの文字コードISO/IEC 8859,また日本国内では,JIS X0208規格,いわゆる第一,第二水準がよく知られているが,現在は世界中の言語で使われている文字を一つの文字コードに収めた国際符号化文字集合ISO/IEC 10646(以降10646規格)[1]が中心となっている.業界標準として知られているユニコード(Unicode Standard)[2]はこの10646規格と同じ文字コードを定義している.
本委員会の現在のスコープは,この10646規格に日本の市場ニーズを反映させること,および世界共通の文字コードにふさわしい標準規格として保守,管理していくことである.
現在SC 2傘下には,ただ一つのWGとしてWG 2があり,10646規格を開発している.WG 2の傘下には,主に漢字使用国が集まってUCSの中で漢字に関連する事柄を担当する表意文字ラポータグループ(Ideographic Research Group, 以降IRG)がある.
2. 参加国
SC 2の現在の参加国は29ヶ国であるが,その中で主として活動しているのは,米国,日本,中国,カナダ,英国,アイルランドといった国々である.日本はSC 2の議長および幹事国を継続的に引き受けるなど主導的な役割を果たしている.現在のSC2議長は田代秀一氏(開志専門職大学)である.なお,SC 2には,ユニコードを開発しているユニコードコンソーシアムがリエゾンメンバとして登録されており主に絵文字や少数民族で使われている文字に関して積極的に活動している.
3. 10646 規格の変遷と最近の日本の活動
10646規格は1993年に最初の版が出版されて以降,文字の追加を中心とした改訂が継続的に行われており,2020年12月に出版された最新の第6版には,全部で約14.4万文字(そのうち漢字が約9.4万文字)が収められている.この中で,日本語の文章で用いられる文字としては,JIS X0208規格やJIS X0213規格の非漢字や漢字(いわゆる第1~4水準)に加えて,電子行政システムで必要な住基ネット統一文字(住民基本台帳ネットワークで使われる文字集合)および戸籍統一文字に含まれている人名や地名の漢字,さらに最新の元号「令和」の合字[*1]なども含まれている.また10646規格で定義されている文字集合全体のうち,実装時に指定することができる部分集合として上記電子行政システム用文字集合の組(Collection)[*2]” MOJI-JOHO-KIBAN IDEOGRAPHS-2018”が定義されている.2021年度には,この第6版に対する追補1の開発が始まった.以下では,本委員会の2021年度の活動について紹介する.
2021年6月に開催されたSC2総会では,10646規格第6版追補1 の開発を開始することが決議された.しかしながら,この追補1の開発開始の決定が遅れため,先行して開発を進めていたUnicode 14.0の開発スケジュールとの同期が取れなかった.このことを受けてあらためて日本からSC2に対して,10646規格の開発をUnicodeと同期をとりながら進めるようWG2に指示することを求めた.
a) 委員会活動全体について
SC2においても2020年度に引き続いて2021年度もCOVID-19の影響で活動が大きく制限された.他の委員会と同様に国内での専門委員会やISOの国際会議はリモート開催で行われた.2021年6月に開催されたSC2総会では,10646規格第6版追補1 の開発を開始することが決議された.しかしながら,この追補1の開発開始の決定が遅れため,先行して開発を進めていたUnicode 14.0の開発スケジュールとの同期が取れなかった.このことを受けてあらためて日本からSC2に対して,10646規格の開発をUnicodeと同期をとりながら進めるようWG2に指示することを求めた.
b) ISO 10646に関して
上記に基づいて10646規格追補1のCDAM投票が行われた.この追補1には,日本から新しい文字の追加提案は行っていないが,日本に関係する文字種の追加としては,CJK統合漢字拡張Hと小書きかな拡張[*3]があった.投票においては,CJK統合漢字拡張Hの中に既存のCJK漢字との統合が疑われる文字が複数見つかったことや,簡体字の部首とそれに対応する繁体字の部首を持つ文字を別々に符号化しようとしていることなどをコメントした.c) ISO 2375に関して
ISO/IEC 2375規格は新規の符号化文字集合及びそれを使用する際に用いるエスケープシーケンスを登録する手続きについての規格であるが,情報規格調査会が2003年のこの規格制定後からその登録機関となっている.ただ現状では,市場のニーズや業界の実装において符号化文字集合の対象は10646規格にフォーカスされており,今後それ以外の符号化文字集合の新規開発や改訂は考えにくい状況にあるため,2021年6月に開催されたSC2総会で本委員会に対して,今後の扱いについて何らかの提案をすることが求められた.その後,本委員会において検討を行った結果,既存のISO/IEC 2375規格の記述の中で,既に登録・実装されている符号化文字集合を参照する場合のため登録情報などについての記述部分を中心とした技術報告書の開発を提案することとなった.4. おわりに
以上本委員会の2021年度の活動について紹介した.今後の活動としては,電子行政システム用に用いられる人名漢字等約6万文字の漢字が,今後デジタル庁が進める政府のデジタル政策において重要な役割を果たすことを鑑みて,そこで定義されている文字図形を対応する10646規格のCJK統合漢字符号表の符号位置(J欄)に追加(いわゆる”水平拡張”)する活動を始める予定である.また,ISO/IEC 2375規格の今後の扱いについてSC2総会で提案すること,また引き続き10646規格第6版追補1のレビューを行っていくことなどがある.
参考文献
[1]https://standards.iso.org/ittf/PubliclyAvailableStandards/c076835_ISO_IEC_10646_2020(E).zip
[2]http://www.unicode.org/versions/Unicode14.0.0/
本文注
[*1]複数の文字を合成して一文字にしたもの
[*2]文字種ごとにその典拠情報などを記したファイルや附属書Aで定義された部分集合内の文字のリストファイル
[*3]小字で表される仮名.ここで追加提案されているのは現代日本語では使われていない限定的な用途のもの.
参考文献
[1]https://standards.iso.org/ittf/PubliclyAvailableStandards/c076835_ISO_IEC_10646_2020(E).zip
[2]http://www.unicode.org/versions/Unicode14.0.0/
本文注
[*1]複数の文字を合成して一文字にしたもの
[*2]文字種ごとにその典拠情報などを記したファイルや附属書Aで定義された部分集合内の文字のリストファイル
[*3]小字で表される仮名.ここで追加提案されているのは現代日本語では使われていない限定的な用途のもの.