SC 2 専門委員会 (符号化文字集合)

第1 種専門委員会

SC 2 専門委員会(符号化文字集合/Coded Character Sets)

<2022年度委員会活動報告>

 委員長 田代 秀一(開志専門職大学)

1. スコープ

SC2専門委員会(以後本委員会という)は,ISO/IEC JTC 2/SC 2 (以後SC 2という)に対応する日本国内組織である.
符号化文字集合およびその情報交換上必要な表現形式等の国際標準化をスコープとしている.
「符号化文字集合」は, IT機器で容易に文字を扱うことができるよう,文字に番号(コード)をつけたものの集合のことである.
 文字コードの規格には長い歴史があり,多数の国で独自の国内規格が定められてきた歴史もあるが,現在は世界中で使われている文字を一つのコード表に収めた国際符号化文字集合ISO/IEC 10646(以降10646規格という)[1 ]が主に用いられている.
 10646規格へは初版発行の1993年より,逐次の追補版発行,改版により年間約5,000文字のペースで文字の追加が行われており,現在約15万種の文字コードが収められている.文字を用いるあらゆるシステムが参照すべき基盤的規格である.
10646規格は,SC 2とユニコード・コンソーシアムとで協調して開発しており,同コンソーシアムから発行されるUnicode Standard[2]と同期した内容となっている[3]

[1]ISO/IEC 10646 : https://standards.iso.org/ittf/PubliclyAvailableStandards/c076835_ISO_IEC_10646_2020(E).zip
[2]The Unicode Standard : https://www.unicode.org/versions/Unicode15.0.0/
[3]The Unicode Standard Appendix D Version History of the Standard : https://www.unicode.org/versions/Unicode15.0.0/appD.pdf

2. 参加国

Pメンバー24ヶ国
Oメンバー26ヶ国
幹事国:日本
議長:田代秀一(開志専門職大学),2023年から武智秀(NHK財団).
エディタ引き受け情況:鈴木俊哉(広島大学),TR2375(3.1に後述)のコエディタ

3. トピックス

3.1. TR2375について

 古い文字コード規格では,「エスケープシーケンス」という特殊なコード列により,文字コードが指す文字を切り替えることが行われている.扱う文字種が増えるごとに,その文字種へ切り替えるためのエスケープシーケンスを追加定義する必要があるが,日本の情報規格調査会がそのための登録機関を担い,シーケンスの登録を受け付けていた.国際規格ISO/IEC 2375(エスケープシーケンスの登録手順)がその登録手順を規定している.
 近年はエスケープシーケンスによる切り替えを必要としない10646規格が普及したことにより,2004年以降新しいシーケンスの登録がない状態が続いていた.
 そこで,この登録体制の廃止へむけた具体案を日本が中心になって検討することが2021年のSC 2総会で決議されていた.
 古い規格であるが,それに則って作られたシステムは無くなっておらず,また,同規格に基づいて作られた電子文書等は長期に保存される場合があることから,その可読性を維持するためにエスケープシーケンスへの参照を長期にわたって維持する必要がある.
 本委員会での検討の結果,登録機関に登録されてきたエスケープシーケンスを記録し,参照可能とするためのTR(標準報告書)を作成する案を提案し,2022年のSC 2総会で承認された.
 新たなTRは上記規格と同じ番号をつけ,TR2375として開発することとなり,鈴木俊哉氏(広島大学)がコエディタに指名された.

3.2. 「水平拡張」について 

 10646規格では,日本,中国,韓国等の漢字文化圏の国々から提案された漢字について,同じ文字だと判断されたものについてはCJK統合漢字として同じ文字コードを与えている.しかし,コードが同じ同一文字であるとはいえ,実際に用いられる字体には国毎に差異がある場合がある.そこで,コード表の中に,各国の字体を典拠情報として例示し,実装上の参考としている.ある文字コードについて,典拠情報を追加することを,SC 2では「水平拡張」と呼んでいる.
 2017年に発行されたISO/IEC 10646:2017に日本から提案した約2,000種の漢字が追加されたことにより,以後,日本の戸籍,住民基本台帳などで人名を表記するために必要とされる約6万種の漢字が国際規格に結び付くようになった.この約6万文字については,10646規格に収録された文字の部分集合(Collection)として定義し,” MOJI-JOHO-KIBAN IDEOGRAPHS-2018”の名前で同規格附属書A中に規定されている.
 しかし,付属書Aの記載事項は文字コードの列のみであり,それが指す各文字が,日本では通常どのような字体として実装されるのかについての情報は記載されていない.
 コード表には,上記約6万の文字のうち日本から新規に提案し,追加された文字については,日本で用いる字体が典拠情報として例示されている.しかし,過去に日本以外から提案された文字に対して後から日本で用いる文字を同定したものについては,日本に結び付く典拠情報は掲載されていない.
 日本で用いる字体の例の全てを10646規格中で参照できないことは,文字の同定等の際に不便であるとの指摘があった.本委員会で検討の結果,日本で用いる約6万の漢字全てがCJK統合漢字の典拠情報へ掲載されるよう,不足する約3万6千文字について「水平拡張」を行うこととなった.この作業は一般社団法人文字情報技術促進協議会[4]と連携して進めている.

3.3. 10646範格の追補版について

 10646規格追補1のFDAM投票が行われた(2023年3月開始,4月〆切).軽微な誤りの修正を指摘するコメント付きで賛成投票.2023年7月にISO/IEC 10646:2020/Amd 1:2023として発行された.
 この追補1には,日本から新しい文字の追加提案は行っていないが,追加されたCJK統合漢字の中には既存の漢字と統合すべきで,新規のコードを与えるべきではないと考えられる文字が複数見られることが本委員会で指摘されていた.この点はCDAM投票のなかで指摘したが,却下された経緯がある.
 追補2の開発が承認され,その作業が開始された.追補2は日本からの「水平拡張」提案のターゲットである.2025年5月の発行を目指している。

3.4. SC 2チェアの交代

 田代の6年の任期が2022年末で終了するため,次期チェアとして,武智秀氏(NHKエンジニアリングシステム,現NHK財団)を推薦し,SC 2総会およびJTC1総会で承認された.結果,引き続きSC 2チェアを日本から出すこととなった.



[4]文字情報技術促進協議会:https://moji.or.jp/

4. 日本対応/方針

 水平拡張は,日本おける,人名用漢字等の運用を円滑にするために不可欠なものであり,10646規格への早期な反映を目指して活動してゆく.
 10646規格追補1へ追加された漢字に対する本員会と他国との意見の相違(上記3.3参照)に見られるように,ある文字を10646規格に新たに追加するか,あるいは既に収録されている文字に統合するかの判断には意見が分かれる場合がある.日本はこれまで,文字の新規追加には慎重な立場をとってきた.一方,中国はSC2での規格化を待ちきれずに国内規格に数百の漢字を追加する作業を進めており,国際規格と矛盾した国内規格ができることによる様々な弊害の恐れが指摘されている(2023年6月のSC2総会にて10646規格に当該文字を緊急追加することで決着).
 我が国においてもデジタル庁が漢字の追加について検討を始めており,文字追加への欲求は国際的にますます強まる傾向がある.情報技術の進歩により,文字種を絞り込むことへの技術的な必要性が少なくなってきたこともその要因の一つであろう.
 規格としての一貫性の維持は意識しつつも,文字の追加について,より寛容な態度で臨むことも必要となってきた.
 このような環境では,10646規格の付属書Aに収められた文字集合定義が重要なものとなる.用途に応じ,使用する文字の範囲を,付属書Aの定義基づいて絞り込むことで,増え続ける文字からの影響を少なくすることが可能となる.今後は付属書Aの充実と普及にも力を入れてゆく必要があると考えている.