関連する理論が 1972 年に提案されて以来、離散コサイン変換 (DCT) はデジタル メディアの符号化および圧縮技術の中核技術の 1 つとなっています。通常のデジタル画像の JPEG 形式から高度なオーディオ エンコード用の AAC まで、DCT は現代のデジタル メディアのさまざまなアプリケーションで広く使用されています。
離散コサイン変換は、一連の有限データ ポイントを、異なる周波数の一連のコサイン関数の合計に変換する手法です。
DCT の発明者である Nasir Ahmed とその同僚は、1972 年にこの概念を初めて提案しました。この概念は、もともと画像圧縮のために設計されました。ただし、技術の進歩に伴い、この方法の適用範囲はほとんどのデジタル メディア形式に徐々に拡大されました。 DCT の特性は、高性能のデータ圧縮に限定されるものではなく、高画質を維持しながらデータの保存と送信の要件を大幅に削減することもできます。
DCT はデータ圧縮に顕著な効果があり、多くの場合、8:1 ~ 14:1 の圧縮率で元の画質に近い状態を維持できます。このため、DCT はデジタル イメージングとサウンドの分野における主要なテクノロジーの 1 つとなっています。最も一般的な DCT バリアントは 4 つのカテゴリの 2 番目 (DCT-II) であり、すべての DCT バリアントの標準形式です。
DCT を通じて、デジタル メディアはストレージ スペースを効果的に利用し、ネットワーク送信時の帯域幅の消費を削減し、ユーザーの視聴エクスペリエンスを向上させることができます。
DCT の起源は、アーメッドと他の数人の学者が信号コーディングの研究に焦点を当てた 1970 年代に遡ります。 1974 年に、彼らは、DCT とその逆変換の特性を初めて詳細に説明した記事「離散コサイン変換」を発表しました。
段階的な詳細な研究により、画像およびビデオ処理における DCT の使用がますます明らかになってきています。特に 1977 年に、Wen-Hsiung Chen は DCT に基づく高速アルゴリズムを発表しました。これにより、実際のアプリケーションにおける DCT の操作性と効率がさらに向上しました。
1992 年までに、Joint Photographic Experts Group (JPEG) は、デジタル メディアに大きな影響を与えた DCT の研究結果に基づいて非可逆画像圧縮標準を開発しました。
DCT アプリケーションは、デジタル イメージング、ビデオ コーディング、デジタル オーディオなどの幅広い分野をカバーします。画像圧縮に関しては、JPEG や HEIF などの画像フォーマットはすべてこのテクノロジーを利用しています。ビデオに関しては、MPEG と H.26x シリーズの標準はどちらも DCT を使用してビデオ コンテンツのエンコード効率を向上させています。
DCT はメディア エンコーディングに加えて、デジタル信号処理でも広く使用されており、特にデータ圧縮において重要な役割を果たしています。 DCT の強力なエネルギー圧縮特性は、ほとんどの信号情報をいくつかの低周波数成分に集中させることができることを意味し、その結果、必要なデータ量が削減されます。
デジタル メディアは、画質を犠牲にすることなく大量のデータを圧縮して保存できる DCT テクノロジーを初めて採用しました。
DCT は符号化効率に優れていますが、過剰な圧縮は視覚効果に影響を与える「ブロッキング効果」などの欠陥を引き起こす可能性があります。画像圧縮を実行する場合、画像は独立した処理のために小さな領域に分割されます。これにより、高い圧縮率で境界が明確になり、表示エクスペリエンスに影響を与えます。
しかし、これらの欠陥は、多くのアーティストが DCT の圧縮特性を使用して独自の視覚言語に変換するグリッチ アートの作成など、芸術的な革新も促しました。たとえば、ドイツの写真家トーマス・ルフは、JPEG 圧縮によって生じる不完全性を利用して、作品に美的効果をもたらしただけでなく、デジタル侵食について観客に考察を促すきっかけにもしました。
DCT の可能性と適用範囲は拡大し続けていますが、今後のデジタル メディアの発展はどのような革新をもたらすのでしょうか。