2006年02月12日

AVC/H.264規格 オーバービュー1.INTRODUCTION

【原文】Introduction paper to H.264/MPEG-4 AVC including the Fidelity Range Extension. PDF
(スウェーデン、 Luleå University of Technology、Dr. Peter Parne氏の講義ガイダンスの模様。:参考 SMD151
Presented at the SPIE Conference on Applications of Digital Image Processing XXVII
Special Session on Advances in the New Emerging Standard: H.264/AVC, August, 2004

The H.264/AVC Advanced Video Coding Standard:
Overview and Introduction to the Fidelity(*1) Range Extensions 
*1) 忠誠、忠実、正確さ、迫真性、忠実度
Gary J. Sullivan*, Pankaj Topiwala†, and Ajay Luthra‡
 
*Microsoft Corporation, One Microsoft Way, Redmond, WA 98052
†FastVDO LLC, 7150 Riverwood Dr., Columbia, MD 21046
‡Motorola Inc., BCS, 6420 Sequence Dr., San Diego, CA 92121


ABSTRACT 〜 摘要

H.264/MPEG-4 AVCは最新の国際映像圧縮規格。
開発はITU-TのVCEG (Video Coding Experts Group)とISO/IECのMPEG (Moving Pictures Experts Group)の共同作業で行われ、優れた符号化ツールを用いて幅広いアプリケーション(ビデオ電話/会議、TV、スト レージ(DVD、ハードディスクベース、わけてもハイデフDVD)、ストリーミング映像、デジタル・ビデオ・オーサリング、デジタルシネマ、などなど)に 高度な圧縮効率をもたらすものだ。
このほど、この規格の拡張作業が完了した。この拡張はFRExt (Fidelity Range Extensions)と呼ばれ、 2003/春に定義完了したAVCのオリジナル規格より優れた圧縮能力を持っている。
この文書では、新しいFRExt規格のハイライトを含めたAVC規格の概要を述べ、さらにMPEG-2およびMPEG-4 part2との若干の比較を行う。

1.INTRODUCTION

 90年代初頭、この分野の揺籃期より、国際ビデオ符号化規格は、デジタル映像圧縮の商業的成功の影の立役者だった。時系列順に見るとH.261, MPEG-1, MPEG-2/H.262, H.263, そしてMPEG-4(Part2)となる。
名称 登場 策定団体 主 な対応コ デック(Mac)
1 H.261 v1:Nov.1990 ITU-T
v2:Mar.1993
2 MPEG-1 Nov.1993 ISO/IEC JVC1
3 MPEG-2/H.262 Nov.1994 ITU-T & ISO/IEC JTC1
4 H.263 v1:Nov.1995
v2:Jan.1998
v3:Nov.2000
ITU-T
5 MPEG-4(Part2) Jan.1999
ISO/IEC JTC1 QT6(Apple MPEG-4)
(追 加有り) Divx,3ivx,XviD,QT7(Apple MPEG-4)
6 H.264/AVC May.2003 JVT(ITU-T & ISO/IEC JTC1) QT7(Apple H.264)
(FRExt)Jul.2004 x264

これらの規格の意義は、

  • 様々な会社の製品間での互換性向上
  • 特定用途向けのアプリケーション(*製品を含む*)製 作に於いて、コストパフォーマンスと性能のバランスの良い技術を選択できる だけの「多様性」 
この二つを両立させた事にある。
その結果、様々な分野で、妥当なコストで先端技術が活用されるようになった。

ITU-T H.264 / MPEG-4(Part10) Advanced Video Coding(一般にはH.264/AVC)は、これら国際映像符号化規格の新人。現時点では最良。
開発に当たったのは、ITU-TのVCEG (Video Coding Experts Group)と、ISO/IECのMPEG (Moving Pictures Experts Group)の専門家から成るJVT(Joint Video Team)。

過去の規格同様、H.264/AVCが目指すのは、以下の項目の「現時点で望み得る最善のバランス」を提供する事。

  • 符号化効率
  • 実装上の複雑さ
  • コスト

これらはVLSI(CPU, DSP, ASIC, FPGA など)技術の状況に基づいている。
具体的な目標は「妥協できるコストで、少なくともMPEG-2の2倍の符号化効率を達成する事」だった。

2004年7月、FRExtが追加された。名称はFidelity Range Extensions(FRExt Amendment 1)。
これは符号化効率をさらに向上するもので、主要なアプリケーションの中にはMPEG-2の3倍に達し得る。

この文書ではまず最初のH.264/AVCのアウトラインを紹介し、その後で、既に産業界から大きな注目を集めている新しいFRExt 拡張の概要を紹介する。

1.1. H.264/AVCの歴史 

H.264/AVCの開発は4年を要した。
この規格のルーツはITU-TのVCEGが始めたH.26Lプロジェクトにある。
H.26Lは1998前半にCfP(Call for Proposal *提 案準備段階?*)に達し、1998/8月に規格化に向けた最初のドラフト・デザインが作られた。
2001年、ISO/IECのMPEGがMPEG-4 Part2の策定を終えた段階で、彼らも将来に向けて似たようなCfPを出した。これに対し、VCEGはH.26LのCfPをMPEGに提供し、次世代規 格の共同策定を提案した。MPEG側はその他の団体等からの提案も含めてテストした結果、H.26Lの中から以下のものを支持する結論を出した。

  • 動き保証(*における*)DCT ストラクチャは他より優れている。少なくとも現段階では、次世代符号化規格のストラクチャに根本的な変更は必要無い。
  • 過去の規格(MPEG-2/4 part2, H.263)よりも良い結果を出した符号化ツールのいくつかは、機能向上の一方、複雑であり、実装コスト肥大を招く。ただし、VLSI技術は企画案作成時 よりも大きく進歩しており、こうしたツールの実装コストも大きく下がった。再テストすべき(このテストはコストを度外視したものではなく、複雑さの問題か ら来る妥協も必要なものだ。この一文は、VLSIの進歩も考慮して、再テストすべきはするとの認識を示す)。
  • 次世代規格のSyntax(*書式?)に過 去の規格との後方互換性を持たせるべきではない。これは符号化効率の追求を妨げる要素を最小化する為。
  • ITU-TのH.26Lが最良の提案だった。また、テストで好成績を出した他の技術提案も大半はH.26Lベースだった。

この結果、ITU-TとISO/IECはH.26Lをベースとする次世代映像符号化規格を共同開発することで合意した。2001/12 月に両者の専門家からなるJVTが発足し、2003年までに規格の為の技術開発を完了すべく活動しはじめた。

新規格の名称として、ITU-Tは「ITU-T H.264」を考えており、一方ISO/IECはISO/IEC 14496で定義済みのMPEG-4 規格の一部として「MPEG-4 Part 10 Advanced Video Coding (AVC)」を考えていた。結果的にこの規格は、誰も望まなかった事だが、少なくとも6種類の名前で呼ばれる事になった。H.264, H26L, ISO/SEC 14496-10, JVT, MPEG-4 AVC, MPEG-4 Part10。この文書では2組織の間をとって「H.264/AVC」とします。

両組織がカバーするアプリケーションの幅が広いため、規格策定作業で考慮すべきアプリケーションの幅も広かった。ビデオ会議システム、 エンターテイ ンメント(ケーブル放送、衛星放送、地上波、ケーブルモデム、DSLなど、DVDやハードディスクなどのストレージに、ビデオ・オン・デマンドなど)、ス トリーミング、監視用、軍事用、そしてデジタル・シネマ、、、。
これらの用途を大雑把に分類するために、プロファイルという機能セット(*使っ ても良い技術の詰め合わせ*)がつくられた。

Baseline profile
複雑さを最小限に抑え、幅広いネットワーク環境(そのコンディション下でも使える)での信頼性とフレキシビリティを狙ったもの。
Main profile
符号化効率の向上を主軸に置いたもの。
Extended profile
Baselineの信頼性を保ちつつ、符号化効率の向上とさらなる信頼性を加え、フレキシブル・ビデオ・ストリーミングなどで有 用な"trick use"向け拡張を加えたもの。
(* のり弁、唐揚げ弁当、のり弁(みそ汁付)といったところか。)

1.2. FRExt改正 

最初のH.264/AVC規格(2003/3月)は8bits/sampleと4:2:0 chroma(*色差・彩度*)samplingベースの"エンターテインメン ト・クオリティ"に主眼を置いた。
時間的な制約から、大半のプロフェッショナル環境下での使用はサポート対象外で、ハイエンドのビデオ解像度に適した設計にもなっていない。Content -Contribution, Content-Distribution, スタジオ編集やポストプロセッシングといった用途には以下のようなものが必要だ。

  • Use more than 8-bits/sample of Source video accuracy
  • コンシューマ・アプリケーションで使われているものより広い色表現の幅(すなわち、4:2:0 chroma samplingではなく、4:2:2や4:4:4 sampling)
  • アルファ・ブレンディングなどの素材edit機能(複数の映像場面のブレンド。天気予報でキャスターの上に地図や気象レーダーの 映像をスーパー・インポーズするなど)
  • とても高いビットレートの使用
  • とても高い解像度の使用
  • とても高い忠実度(Fidelity)の達成。部分的に映像をlosslesslyに表現する事も含む
  • カラースペース変換のrounding error回避(* 丸め誤差?*)
  • RGB color representationの使用(*RGB 色空間?*)

こうしたアプリケーションの要請を満たすため、ジョイント・プロジェクトは拡張作業を続けた。作業は2003/3月の最初のドラフト案 から2004/7月の最終設計案を経て、2004/8〜9月に編集が終わると見込まれている。
この拡張は当初"プロフェッショナル"拡張と呼ばれていたが、最終的には"fidelity range extension(FRExt)"と呼ばれる事になった。その方がこの拡張の本質を表しているからだ。

FRExt改正の過程で、JVTは時間的な制約からオリジナル規格に盛り込めなかった技術提案や、利得が不確実だったもの、想定アプリケーションなどの見 直しも行った。特筆に値するものは以下。

  • adaptive block-size for residual spatial frequency transformのサポート
    • 状況可変なマクロブロックサイズにおける、残りの空間軸周波数(*頻度?*)変換。ズバリ、8x8dctでしょう。
  • エンコーダで指定できる、人間の認識ベースのQuantization Scaling matrixのサポート
    • ズバリ、cqmでしょう。
  • efficient lossless representation of spacific regions in video contentのサポート
    • 映像を部分的にロスレスで効率的に再現(*下手に圧縮かけるよりそのままのほうが小さくてすむマクロブロックというのが あるらしい。謎*)

FRExtは新たに4つのプロファイルを定義したが、ひとまとめでHigh profilesと呼ばれる。

High profile (HP)
supporting 8-bit video with 4:2:0 sampling, addressing high-end consumer use and other applications using high-resolution video without a need for extended chroma formats or extended sample accuracy
High 10 profile (Hi10P)
supporting 4:2:0 video with up to 10 bits of representation accuracy per sample
High 4:2:2 profile (H422P)
supporting up to 4:2:2 chroma sampling and up to 10 bits per sample
High 4:4:4 profile (H444P)
supporting up to 4:4:4 chroma sampling, up to 12 bits per sample, and additionally supporting efficient lossless region coding and an integer residual color transform for coding RGB video while avoiding color-space transformation error

(*重箱弁当四段重ね。カジュアル・エンコードでは一の重だけでよさげ。*)

これらのプロファイルは全てMainの機能を含み、さらにadaptive transform block sizeと人間の認識ベースのQuantization Scaling matrixをサポートする。

産業界の反応は劇的でFRExtは急速に受け入れられた。High profileが近未来のアプリケーション規格に盛り込まれる事は確実に思える。中でも重要なのは:

  • HD-DVD 規格(DVD Forum )
  • BD-ROM Video 規格(Blu-ray Disc Association)
  • DVB (digital video broadcast) 規格(for European broadcast television )

Advanced Television Systems Committee (ATSC)(米国および多様な衛星/ケーブルTVで採用)なども追って対応するだろう。事実、High profileに対する関心は急速にMainに対する関心にとって変わりつつ有る。というのはHigh profileでは実装をあまり複雑化することなく、Mainより高い符号化効率が得られるからだ。

posted by ばる at 18:59| Comment(3) | TrackBack(0) | MPEG-4全般 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
はじめまして、Linuxでmencoderを使用しているものです。
多少技術英語に心得がありますので、注がついている文にコメントを勝手にしたいと思います。
Call for Proposal:提案書募集声明、学会で論文を募集するときはCall for Paperと言います。
Syntax:プログラム言語では構文と訳します。コーデックだと多少意味が違いますが、昔の構文と互換性を取るつもりはないという意味だと思います。(つまり一から開発しろという事)
rounding error:丸め誤差だと思います。RGBから別のYUVやHSVに変換すると必ず誤差が発生します。RGB->YUV->RGBと変換すると式としては同一ですが誤差で微妙に違う物が出来上がります。
RGB color representation:空間というよりは表現だと思います。内部的なデータがRGBで記述するという事では。
adaptive block-size:適応的ブロックサイズだと思います。画像の状況に応じて4x4や8x8を切り替えるという事では。
efficient lossless:どんな圧縮アルゴリズムでも圧縮率が上がらない苦手なデータが存在します。状況によっては圧縮しないほうがデータが小さくなります。
以上、勝手なコメントでした。
Posted by F Works++ at 2006年02月13日 02:36
F Works++様。
ありがとうございます。
なるたけ肚に落としてから本文に反映させて頂きたいと思います。しばらく時間がかかるかも知れませんがご容赦の程を。m(_ _)m
Posted by ばる at 2006年02月13日 20:00
CfE(Call for Evidence);提案募集

新しい符号化方式の募集。
従来方式より優れている事の証拠(Evidence)提出も求める。

 2000年代初頭にMPEG4-ASPよりも優れている事を謳うコデックが増えた事から、後のAVC規格策定に先だってISO-MPEGが行った。
 ここで高い評価を得たのがITU-Tの提出したH.26L。後の伊藤博文である。、、、じゃなくて、これがAVC/H.264の叩き台となった。

 『MPEG4-ASPの半分のビットレートで同等画質』という評価はこの際のMOSテスト(主観的画質評価)の結果が元ネタくさい。

 主観評価といいつつMOSは複数の検査者によるもので、検査者の主観のバラツキを馴らす為の統計的手法も導入されている。合わせてPSNRによる数値比較も行われている。特に、1MbpsのH.26Lは素材映像と区別が付かないとの評価を得ている。
 んが、素材映像は7種類程度で、テスト素材にはSD(720x480)もあるが、CIF(352x288)以下が多いようだ。もともとITU-Tは通信規格の団体で、H.26LはTV会議向けの次世代規格としてスタートしたもの。また、この段階では全ての素材・ビットレートでMPEG-4 ASPと段違いの成績を出したわけでは無い。
 、、、といった印象を受けた^^;

/*/

元ネタは改訂版・H.264/AVC教科書
Posted by ばる at 2006年03月25日 00:13
コメントを書く
お名前: [必須入力]

メールアドレス: [必須入力]

ホームページアドレス: [必須入力]

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。