SC 2 専門委員会 (符号化文字集合)

第1 種専門委員会

SC 2 専門委員会(符号化文字集合/Coded Character Sets)

<2024年度委員会活動報告>

 委員長 田代 秀一(開志専門職大学)

1. スコープ

 SC2 専門委員会は,符号化文字集合の国際標準化を担当する国際組織 ISO/IEC JTC1/SC 2(以降 SC 2)に対応する日本国内の組織である.そのスコープは,符号化文字集合,および,その並べ順を含む情報交換上必要な表現形式など(ただし,音声と画像の符号化を除く)である.「文字」を扱うあらゆる情報機器から参照される基盤的な規格を担当しており,また,「文字」を扱うことから,技術だけでなく,文化や言語の側面も含め,調和のとれた形で規格化議論を進めることが不可欠である.

 「符号化文字集合」は,文字に番号(符号あるいはコードと呼ばれる)をつけたものの集合のことである.これは一見単純なことに見えるが,例えばある国や文化圏では同一の文字として認識されている図形が,他の国や文化圏では異なる文字と認識されるといった例は数多く,多種多様な「図形」のなかから国際的に合意された形で「文字」を切り出すためには多くの議論を必要とする.

 情報システムはこの番号を用いて文字の記録・伝達・処理などを行う.多数の国で独自の国内規格が定められてきた歴史を経,現在は世界中で使われている文字を一つの表に収めた国際符号化文字集合ISO/IEC 10646(国際符号化文字集合,以後10646規格という)が主に用いられている.10646規格は,約3万文字が収録された初版の発行(1993年)以来年間約5,000文字のペースで文字の追加が行われている.2025年6月に第6版の追補2が発行され,そこには約15万の文字が収容されている.現在2027年の第7版の発行へ向け準備中である.SC 2ではこの規格と,ISO/IEC 14651(国際文字列の並べ替えと比較)の2つの規格の開発を継続して進めている.

 日本は1997年より一貫してSC 2の国際議長及びコミッティマネージャを務めるなど,この分野での高いプレゼンスを確保・維持している.2025年6月には総会を日本の新潟市で開催した.

 10646規格は,SC 2とユニコード・コンソーシアムとで協調して開発しており,同コンソーシアムから発行されるUnicode Standardと同期した内容となっている.

2. 参加国

Pメンバー22ヶ国
Oメンバー27ヶ国
幹事国:日本
議長:武智秀(NHK財団).
役職引き受け状況:
 鈴木俊哉(広島大学),TR2375(3.1参照)のコエディタ
 田代秀一(開志専門職大学),AHG 1 (3.3参照)のコンビーナ

3. トピックス

3.1. TR 2375の発行

 2024年7月にTR2375:2024が発行された.そのコエディタを務めていた鈴木氏は,この業績により同年9月,情報規格調査会より国際規格開発賞を受賞された.
 本TRは,ISO/IEC 2375:2003,”Procedure for registration of escape sequences and coded character sets”(エスケープシーケンス *1及び符号化文字集合の登録手順)に基づき,情報規格調査会がRegistration Authority(登録事務局,RA)として登録を受け付けてきたエスケープシーケンスの登録内容を永続的に参照可能とすることを意図し,日本から提案していたものである.エスケープシーケンスを必要としない新たな規格,ISO/IEC 10646(国際符号化文字集合)の普及に伴い,新規登録が無くなったことからISO/IEC 2375およびRAを廃止することとしたが,その登録内容はISO/IEC 2022” Character code structure and extension techniques”(符号化文字集合の構造と拡張法)等から参照されており,その永続的な参照の維持はシステムおよび電子文書の相互運用性を維持するために極めて重要である.

 

3.2. 日本案「水平拡張」の発行

 2024年6月,プラハで開催されたSC 2/WG 2会議で,日本から提案していた約3万文字に対する「水平拡張」について細部の議論がなされた.その結果とその後の投票を経,日本案が反映された10646規格追補版2が2025年6月に発行された.
10646規格の文字コード表のうち,漢字に関する部分には,一つの文字コードに対して複数の字形が例示される場合がある.これは,漢字文化圏内の各国・地域で用いられる漢字の代表的な字形に微妙な差があるためである.そこへ今回,日本で主に用いられる約3万の字形が追加された.人名等の正確な表記を用いるシステムの実装への活用が期待される.
 なお,コード表に示された字形は,あくまでも例示であり,実装を縛るものではないことに注意する必要がある.また,一つの文字コードには多様な字形が対応される事が基本であるため,正確な字形の指定を必要とするシステムにおいては,文字コードに加え,そのコードに対応する複数の異体字のなかのどれを用いるのかを指定するために使用する符号であるIVS(Ideographic Variation Selector,字形選択子)を用いる必要がある.IVSによりどのような字形が指定されるのかについては10646規格から参照されるデータベースであるIVD (Ideographic Variation Database)*2 に記録されている.

 

3.3. AHG 1(AHG 1:ISO/IEC 10646規格化プロセスレビューのためのアドホック・グループ)の設置

 2024年6月,プラハで開催されたSC2総会にいて,10646規格の規格化プロセスの効率化について検討するためのアドホック・グループ,AHG 1の設置が承認された.そのコンビーナには田代が指名された.
 10646規格には約15万文字を収録した大規模な文字コード表が含まれる.主要国・地域で一般的に日常用いられる文字の規格化は完了に近づいているものの,人名表記用の文字,歴史的文字,少数民族文字など専門性の高い文字や,SNSなどで用いられる絵文字などの追加が継続している.
 このコード表の更新についてISO/IEC Directives, Part 1,Annex Gに規定された“Maintenance Agency(メンテナンス機関),MA”の活用により効率化を図る案が出されており,参加国からの強い反対は無い状況である.しかし,MAの一部業務を民間団体などへ委託する場合,規格の公平性,中立性をどのように担保するのか,についての慎重に検討すべきとの意見が多く出されている.
これらについては,2025年においても継続して議論することとなった.


(*1)ISO/IEC 2022が規定する,文字集合を選択するために用いる特殊なコード列.
(*2)www.unicode.org/ivd/

 

4. 日本対応/方針

 現在,デジタル庁が,戸籍など,正確な表記を必要とする行政業務に必要な文字をさらに1万文字程度追加し,その国際規格化を進めることを検討している.
 しかし,古い公文書等に手書きで記録された文字については,音義不明な物もあり,その規格化については,従来と異なる方式や手順も必要になるのではないかとの指摘もなされている.今後その議論を迅速に進めてゆく必要がある.
 少数民族文字,歴史的文字,人名用漢字などのように,文化,国家,民族などに深く根ざす文字,また,絵文字などビジネスや現代文化を反映した文字などの規格化が増え,今後の議論にはますます多岐に渡る専門家が必要となる上,国家・地域や文化圏,学界,産業界など,利害関係者も多岐にわたる.また,大規模なコード表の編集には特殊なスキルや設備が必要であり,後継者育成も重要な課題である.このような環境で,効率的かつ中立・公正な規格化を進めることは非常に困難であるが,長期にわたって国際議長及びコミッティマネージャを務めるなどSC 2へ貢献してきた日本がイニシャティブをとることが期待されており,それにこたえてゆく事が重要である.