SC 29 専門委員会 (音声,画像,マルチメディア,ハイパーメディア情報符号化)
第1 種専門委員会
SC 29 専門委員会(音声,画像,マルチメディア,ハイパーメディア情報符号化/Coding of Audio, Picture, Multimedia and Hypermedia Information)
<2024年度委員会活動報告>
委員長 (鈴木 輝彦(ソニー・グループ(株))
1. スコープ
- デジタル静止画像・音声・ビデオの効率的符号化
- その他マルチメディア・センサ・ゲノム情報等の効率的符号化
- 同期・蓄積・伝送・セキュリティ等のサポート
SC 29 専門委員会では,SC 29 の国際会議対応,および SC 29 で策定した規格の普及促進を目的として活動している.
2. 参加国
3.トピックス
3.1 静止画像符号化関連トピック
a) JPEG AI
深層学習技術をベースとした静止画像符号化標準(ISO/IEC 6048-1)の標準化が進められてきた. ITU-T SG 21 との共同プロジェクトとなる.符号化効率の改善だけでなく、ビットストリームを完全にデコードせずに,深層学習が得意とする画像認識等のコンピュータビジョンタスクを実行可能にする.2024-10 に国際標準が発行された.
b) JPEG Pleno
AI ベースの JPEG Pleno Point Cloud coding(ISO/IEC 21794-6)の標準化が進められている.深層学習を用いた符号化方式の規格化が2025-01 に終了し、国際標準が発行された.
c) JPEG Trust
生成AIによって作成されたコンテンツの真正性と出所を検証するための標準化が進められてきた.C2PA(Coalition for Content Provenance and Authenticity)と連携して標準化が進められた.2024-07 に規格化を終了し、国際標準(ISO/IEC 21617-1)を発行した.
d) その他
Event-driven Senor 向けの圧縮方式 JPEG XE など,新たなプロジェクトの可能性も検討されている.
e) 実用化状況
JPEG AI は、現状では、研究開発段階から商用利用に向けた移行期にあり、今後の展開が注目される.スマートフォン、デジタルカメラ、クラウドサービスなど、幅広い分野での採用が期待される.JPEG Trust は、そのベースとなった C2PA 方式がデジタルカメラなどで採用が進んでおり、今後、デジタルカメラ、ソーシャルメディアプラットフォーム、ニュースサイトなど、コンテンツの信頼性が求められるあらゆる分野で、この標準が採用されることが期待される.
3.2 オーディオ符号化関連トピック
a) MPEG-I Immersive audio
VRやARなどを活用した仮想空間における,視聴者の自由な移動(6DoF)に対応した音再生を目指して, Immersive audio(ISO/IEC 23090-4)の標準化が進められている. 2024年5月 にホワイトペーパーを発行した.今後、国際標準発行に向けた技術審議が進められる.
b) Audio Coding for Machine(ACfM)
機械による音響解析に用いる Audio Coding for Machine の検討が進められている.スマートスピーカー、音声アシスタント、監視カメラの音声認識など、AIや機械学習を活用したアプリケーションなどのユースケースがまとめられた.Call for Evidenceを発行し,技術のフレームワークの妥当性の検証を進めている.今後、本格的な技術審議が行われる.
c) 実用化状況
MPEG-H 3D audioは, 没入型オーディオ体験を提供する規格として、2024年を通してその普及が加速した.特に、欧州やアジア, 南米の放送規格での採用が進んでいる.日本においても, 高度地上デジタルテレビジョン放送の音声符号化方式として,ARIB標準規格に採用された.
3.3 映像符号化関連トピック
a) Beyond VVC(Versatile Video Coding)
VVC(ISO/IEC 23090-3)はITU-T SG21 WP3とISO/IEC JTC 1 SC 29 WG 5の間で設立された団体Joint Video Experts Team (JVET)で標準化が進められている.既存の VVCを超える符号化効率を実現するための技術検討が進められている.今後、次世代映像符号化方式の標準化の妥当性の検証が進められる.
b) Dynamic Mesh Coding (D-Mesh)
カメラアレイ等から時系列データとして生成されたDynamic Mesh(動的メッシュ)がある. Dynamic Mesh を符号化する方式の標準化が進められている.提案募集が行われ、既存のビデオ符号化方式を用いた方式Video-based dynamic mesh coding (V-DMC, ISO/IEC 23090-29) として標準化が開始された.
c) 新たな 3D モデル表現
3D Gaussian Splattingのような新しい3Dレンダリングのための表現を、効率的に圧縮する方法の検討を進めている.これは、新しいメディア形式の効率的な符号化を確立するための検討となる.様々なフォーマットの乱立が懸念され、標準化が必要となっている.今後、本格的な技術検討が進む予定.
d) 実用化状況
VVC は、2024年、IntelがVVCデコード機能を自社のGPU(Lunar Lake GPU)に統合することを決定し、ハードウェアレベルでの対応が本格的に始まった.また、ブラジルの新しいテレビ放送システム「TV 3.0」や、ヨーロッパのデジタル放送規格「DVB Project」でもVVCの採用が決定・推進されている.日本においても, 高度地上デジタルテレビジョン放送の映像符号化方式として,ARIBでの規格化が進められた.
3.4 システム関連トピック
a) イマーシブメディア
イマーシブメディア(Immersive Media、ISO/IEC 23090)関連の標準化が進んでいる.AR/VR市場の拡大, IoTやクラウドサービスの拡大を反映し,KhronosやW3Cなどと連携し活発に進んでいる.3D CG のシーン記述はKhronos の glTF をベースに vendor extension として規格化を進めている.ISO/IEC 23090-14 Scene Description として規格化された.複数ユーザーが仮想空間で参加する会議やゲームにおけるオブジェクトの共有やインタラクションの機能の拡張が開始された.
b) ハプティクス符号化
今後の没入型体験に不可欠な技術の検討を進めている.触覚や力覚のフィードバック情報を表現するための符号化方式、ハプティクス符号化(Haptics Coding, ISO/IEC 23090-31)の標準化を進め、国際標準を発行した.これにより、視覚だけでなく、物理的な感覚も含めた完全な没入体験の提供を目指す。
4. 日本対応/方針
a) 静止画符号化関連
JPEG Trust,XE などでは,既に日本から積極的に提案,関与を行っており,引き続き,標準化を推進して行く.また新たな標準化分野の探索も進んでおり,日本としても動向を注視していく.
b) オーディオ符号化関連
MPEG-H 3D Audio は実用段階に入っており,日本としても普及促進を進める.また,MPEG-I Immersive Audio は,Reference Modelが決定し,コア実験が進められている. 日本としても積極的に活動,貢献していく.
c) 映像符号化関連
VVCの初版規格の標準化が完了し,今後は互換性確保のための標準化や,普及促進が課題となる.Point Cloud Coding やDynamic Mesh Coding は VRでの応用や,LiDARなど環境センシングへの応用が期待される.産業界と連携して,標準化と普及促進を進める.
d) システム関連
イマーシブメディア伝送方式、メタバースを想定した伝送方式の検討が引き続き活発に進んでおり,日本としても動向を注視していく.
e) 新たな探索
Audio/Video/Systemsを横断して,VR関連の標準化をMPEG-I Immersive Videoとして,今後進めていく.また,これまでのビデオ符号化は人間が見る目的で開発が進められてきたが,センシングやAIの発達をにらみ,ビデオ解析等の用途に特化したビデオ圧縮符号化方式を規定するVideo Coding for Machines,またAIのビデオ符号化への応用を考えるJPEG AI, DNN for Video Codingの検討が進められている.これらはIoT等の多様な機械学習応用分野への展開が期待されるため,日本としてもこれらの活動に積極的に参加し標準化を推進していく.