Kompression von Multimediadaten

von Aljoscha Smolic


1. Einleitung
2. Grundlagen

3. Audio

4. Einzelbilder

5. Video

6. Neue formate

7. Fazit

1. Einleitung

Der Begriff Multimedia ist nicht umsonst eines der Modeworte unserer Zeit. Er bezeichnet das Zusammenwachsen aller Medien wie Video, Audio, Text usw. und der Anwendungen wie Telekommunikation, Rundfunk, Computertechnik, Internet usw. Die technologischen Entwicklungen in diesem Bereich haben eine nachhaltige Veränderung unserer Gesellschaft, unserer Leben- und Arbeitsweisen, unserer Gewohnheiten und unseres Bewusstseins bewirkt, wie kaum eine andere Technologie. Es ist auch absehbar, dass der Fortschritt in der Multimediatechnik noch lange keine Sättigung erreicht hat und damit auch die soziokulturellen Veränderungen weiter gehen werden.

Eine wesentliche Voraussetzung für diese Entwicklung ist die Möglichkeit der digitalen Repräsentation von Multimediadaten. Man kann daher in diesem Zusammenhang durchaus von einer digitalen Revolution sprechen. In digitaler Form werden Daten binär, d.h. durch eine Abfolge von Zeichen (Bits), die jeweils nur zwei verschiedene Werte annehmen können (0 oder 1), repräsentiert. Die Menge an Bits, die notwendig ist, um Multimediadaten in unkomprimierter Form darzustellen, hängt von der Art der Daten (Sprache, Musik, Video, etc.) und der Qualität ab. In jedem Fall können sich auf diese Weise extrem große Datenmengen ergeben. Z.B. erhält man für digitales Video in Fernsehqualität eine Datenrate von 165,9 MBit/s, für einen Film von 90 Minuten erhält man eine Datenmenge von 104,3 GByte. Um digitales Video überhaupt wirtschaftlich übertragen und speichern zu können, ist es daher notwendig, es zu komprimieren. Ähnliches gilt für andere Arten von Multimediadaten wie Sprache oder Musik. Kompression bedeutet dabei, die gleichen Daten in einer anderen Weise zu repräsentieren, die mit wesentlich weniger Bits auskommt.

Zu diesem Zweck sind für die verschiedenen Arten von Multimediadaten spezielle Kompressionsverfahren entwickelt worden, die in diesem Beitrag vorgestellt und erläutert werden. Zunächst wird auf die grundlegenden Prinzipien und Begriffe der Kompression von Multimediadaten eingegangen.

2. Grundlagen

2.1 Informationsgehalt

Der Begriff Kompression deutet bereits an, dass man es mit etwas zu tun hat, das man zusammendrücken kann, wie ein Schwamm, dessen Volumen man deutlich verkleinern kann. Zur Formalisierung wurde in der theoretischen Nachrichtentechnik der Begriff des Informationsgehalts eingeführt. [4.] Der Informationsgehalt einer Nachricht entspricht einem bis auf das Kleinste zusammengedrückten Schwamm, er bezeichnet die Essenz an Information in einer Nachricht. Dabei ist der Informationsgehalt umso größer, je unerwarteter, überraschender, unwahrscheinlicher eine Nachricht ist. Die Aussage "Die Tagesschau kommt um 20.00 Uhr" hat nur einen geringen Informationsgehalt, da man das in der Regel schon weiß. Hingegen hat die Aussage "Die Tagesschau kommt heute um 20.30" einen höheren Informationsgehalt. Grundsätzlich gilt, dass man Nachrichten theoretisch bis auf ihren Informationsgehalt komprimieren kann. In der Praxis versucht man diesem Ideal möglichst nahe zu kommen.

2.2 Irrelevanz und Redundanz

Dass man überhaupt komprimieren kann hängt mit der Tatsache zusammen, dass Nachrichten in der Regel Irrelevanz und Redundanz enthalten, die man versucht zu erkennen und zu entfernen. [4.] Als Irrelevanz bezeichnet man Teile einer Nachricht, die für den Adressaten keine Bedeutung haben bzw. nicht wahrgenommen werden können. Wenn man irrelevante Bestandteile erkennen kann, braucht man sie nicht abzubilden, man kann sie einfach weglassen ohne den Informationsgehalt zu berühren und erreicht damit eine Kompression. Hiervon wird z.B. in starkem Maße bei der Kompression von Audio Gebrauch gemacht, indem Bestandteile entfernt werden, von denen man weiß, dass sie ohnehin nicht hörbar sind.

Als Redundanz bezeichnet man Bestandteile einer Nachricht, die sich von selbst aus dem Rest ergeben. "Ein weißer Schimmel" ist ein typisches Beispiel für redundante Information. Die Redundanz wird auch mit Wahrscheinlichkeitsbegriffen gekoppelt. Liegen z.B. um einen betrachteten Bildpunkt herum nur rote Bildpunkte, so wird auch der betrachtete Bildpunkt mit einiger Wahrscheinlichkeit rot sein. Man muss das nur übertragen, wenn er mal nicht rot ist (d.h. das Unwahrscheinliche tritt ein, ein Ereignis mit hohem Informationsgehalt). Da dies jedoch selten geschieht, ist die Datenrate im Mittel verringert worden. Weglassen redundanter Information führt ebenfalls nicht zu einer Reduktion des Informationsgehalts, da sie rekonstruiert werden kann.

Die in den folgenden Abschnitten beschriebenen Kompressionsverfahren beruhen auf der Reduktion von Redundanz und Irrelevanz, wobei die speziellen Eigenschaften der verschiedenen Arten von Multimedia und die Eigenschaften des menschlichen Hör- und Sehsinns in intelligenter Weise ausgenutzt werden. Reicht die erreichbare Kompression für eine Anwendung nicht aus, so muss auch Informationsgehalt geopfert werden. Dies äußert sich z.B. in einer verringerten Bildqualität.

2.3 Digitalisierung

Zur Digitalisierung muss ein Signal abgetastet und quantisiert werden. [5.] Abtastung bedeutet, dass man ein Signal nicht mehr in seiner kompletten Verlaufsform repräsentiert (z.B. zeitkontinuierlich), sondern nur noch an bestimmten meist äquidistanten diskreten Abtastpunkten (z.B. zeitdiskret). Quantisierung bedeutet, dass man nicht mehr alle möglichen, kontinuierlichen Amplitudenwerte (z.B. Lautstärken, Helligkeiten) zulässt (wertkontinuierlich), sondern nur noch eine festgelegte Anzahl von Amplitudenwerten zugelassen wird (wertdiskret).

Ist ein Signal abgetastet und quantisiert, so spricht man von einem Digitalsignal. Es ist eine diskrete Folge von diskreten Werten. Zur Umsetzung von der analogen in die digitale Welt und umgekehrt existieren spezielle Bausteine (A/D- und D/A-Wandler). Ein Digitalsignal lässt sich komplett durch eine Abfolge von Symbolen aus einem Alphabet beschreiben. Die Symbole können durch eine Abfolge von Bits ("0" und "1") repräsentiert werden. Dabei kann das Alphabet umso größer sein (Anzahl der Symbole, Auflösung des Signals), je mehr Bit pro Symbol man verwendet. Der Empfänger kann aus einer empfangenen Abfolge von Bits (Bitstrom) wieder das analoge Signal rekonstruieren und wiedergeben.

Der Abtastabstand steht in engem Zusammenhang mit den Frequenzen (z.B. Tonhöhen), die in einem Signal enthalten sind. Allgemein muss die Abtastfrequenz (Inverse des Abtastabstands) mindestens doppelt so groß sein wie die maximal im Signal enthaltene Frequenz. [5.] Zur Digitalisierung eines Telefonsignals reicht z.B. eine Abtastfrequenz von 8.000 Hz > 2 x 3.400 Hz aus (siehe unten).

2.4 Entropiecodierung

Nach der Digitalisierung werden die verschiedenen Multimediadaten, wie in den folgenden Abschnitten beschrieben, weiter verarbeitet, um Irrelevanz, Redundanz und manchmal auch Informationsgehalt zu entfernen (wobei die Abgrenzung zur Digitalisierung an dieser Stelle rein formeller Natur ist). Das Resultat ist jeweils eine Abfolge von Symbolen, die die Multimediadaten beschreibt. Diese Beschreibung enthält meist jedoch noch Redundanz, da manche Symbole häufiger vorkommen als andere. Um auch diese zu entfernen wird abschließend jeweils eine so genannte Entropiecodierung durchgeführt. [4.] Das Prinzip ist bekannt vom Morsealphabet. Der Buchstabe "e" kommt am häufigsten vor, daher wird diesem Symbol das kürzeste Codewort "." zugeordnet. Alle Symbole erhalten je nach ihrer Auftretenswahrscheinlichkeit Codewörter verschiedener Länge. Im Mittel ergibt sich die geringste mögliche Coderate. In der Praxis können Verfahren zur Entropiecodierung sehr viel komplexer sein. Die Symbole sind z.B. errechnete Transformationskoeffizienten oder Bewegungsvektoren die auf Bits abgebildet werden.

3. Audio

Als Audio bezeichnet man alles, was man mit dem Hörsinn wahrnehmen kann. Diese Wahrnehmungen werden durch Schwankungen des Drucks des an den Trommelfellen anliegenden Mediums (meist Luft, auch z.B. Wasser) hervorgerufen. Einen wichtigen Spezialfall stellt die Sprachkommunikation dar, der zunächst gesondert behandelt wird.

3.1 Sprachkommunikation

Die Sprache ist eines der wichtigsten Kommunikationsmittel der Menschen. Die Erfindung des Telefons stellte einen der wichtigsten Meilensteine in der Entwicklung der modernen Gesellschaft dar. Bei der Sprachkommunikation kommt es jedoch nicht in erster Linie darauf an, den Klang originalgetreu wiederzugeben. [8.] Vielmehr ist die Verständlichkeit das wichtigste Beurteilungskriterium. Schon bei der Entwicklung des analogen Telefons wurde in umfangreichen Untersuchungen festgestellt, dass bei einer noch sehr guten Sprachverständlichkeit es möglich ist, den übertragenen Frequenzbereich auf 300-3.400 Hz zu beschränken. Das bedeutet, dass sowohl tiefe als auch hohe Töne vor der Übertragung herausgefiltert werden, nur der mittlere Frequenzbereich wird beim Empfänger wiedergegeben. Jeder kennt diesen spezifischen Klang des Telefons, insbesondere wenn man versucht, andere Signale als Sprache zu übertragen. Trotzdem weiß auch jeder, dass man sich mit dem Telefon sehr gut verständigen kann, es ist auch meist sehr gut möglich, den Gesprächspartner zu erkennen. Im Sinne der Verständlichkeit stellt diese Beschränkung des Frequenzbereichs somit eine Irrelevanzreduktion dar. Sie hat den Vorteil, dass man über eine Leitung sehr viel mehr Gespräche übertragen kann, dass das Telefonieren billiger wird. Die Anzahl der Gespräche pro Leitung hängt von der Breite des Frequenzbereichs pro Gespräch ab.

Um ein solches Telefonsignal zu digitalisieren reicht eine Abtastfrequenz von 8.000 Hz > 2 x 3.400 Hz aus. Für eine gute Sprachverständlichkeit reicht zudem eine Amplitudenauflösung mit 8 Bit, was 256 Amplitudenstufen entspricht. Somit ergibt sich für ein digitales Telefonsignal eine Datenrate von 64.000 Bit/s (8 Bit * 8.000 Hz). Dies ist auch die Datenrate, die man bei einem ISDN-Anschluss pro Telefonkanal zur Verfügung gestellt bekommt.

An dieser Stelle setzen moderne Verfahren der Redundanzreduktion erst an, die Wissen über die Physiologie der Spracherzeugung ausnutzen. So besteht Sprache zum großen Teil aus Pause. Zum einen sind dies längere Pausen, wenn der Partner gerade spricht, aber auch kürzere Pausen zwischen einzelnen Wörtern, Silben und sogar zwischen einzelnen Lauten. Mit modernen Algorithmen ist es möglich diese Pausen zu erkennen. Dann kann man dem Empfänger eine Pause signalisieren und in dieser Zeit keine Daten senden.

Weiterhin besteht Sprache aus stimmhaften (Vokale) und stimmlosen (Konsonanten) Lauten, wobei es auch Mischformen gibt. Sie entsteht, wenn Luft aus den Lungen durch den Vokaltrakt durch Stimmbänder und Mund gedrückt wird. Die Stellungen und Bewegungen der einzelnen Elemente des Vokaltrakts bestimmen die Laute und deren Übergänge. Die genetischen Unterschiede des Vokaltrakts und die unterschiedlichen Gewohnheiten der Benutzung verleihen jedem Menschen seine charakteristische Stimme. Bild 1 zeigt den zeitlichen Verlauf der Amplitude eines Sprachsignals, das mit 8 kHz abgetastet und mit 8 Bit linear quantisiert wurde. Deutlich sind die unterschiedlichen Charakteristika der verschiedenen Laute zu erkennen (z.B. stimmhafte Vokale "a", "i", stimmlose Zischlaute "sch", "ch", plosiv "p").

Bild 1. Zeitlicher Verlauf der Amplitude eines Sprachsignals

In modernen Kompressionsalgorithmen wird ein Modell der Spracherzeugung verwendet (Vocoder), das aus Anregung (Luft aus Lunge) und Lautformung (Vokaltrakt) besteht. Eine konkrete Ausformung des Modells (d.h. ein Laut) kann durch einen Satz von aktuellen Modellparametern beschrieben werden. Da Änderungen des Vokaltrakts eine gewisse Zeit benötigen, ist das Sprachsignal über kurze Zeiträume (z.B. 20 ms) relativ konstant. Es werden daher immer für ein solches Zeitfenster Modellparameter bestimmt und zum Empfänger übertragen. Dort kann der laut anhand des bekannten Modells und der erhaltenen Parameter rekonstruiert werden. Da solche reinen Vocoder jedoch recht unnatürlich klingen, werden sie durch komplexe Analyse-Synthese-Verfahren erweitert. Diese so genannten CELP-Codecs (z.B. ITU G.728), die heute in allen Mobiltelefonen verwendet werden, erlauben eine Reduktion der Datenrate bis zu ca. 4-16 kBit/s ohne Verringerung der Verständlichkeit.

3.2 Audio

Hierbei soll es nun um allgemeines digitales Audio, d.h. vor allem um Musik gehen. [9.] Das Ziel hierbei ist es, dem Zuhörer einen subjektiv originalgetreuen Klangeindruck zu verschaffen. Dazu muss der gesamte Hörbereich 20-20.000 Hz abgedeckt werden. Außerdem ist eine sehr feine Abstufung der Amplitudenstufen notwendig. Ansonsten können Quantisierungsfehler als störendes Rauschen hörbar werden. Meist werden 16 Bit verwendet, was 65.536 Amplitudenstufen entspricht. Für höchste Qualitätsansprüche z.B. im Tonstudio werden auch 24 Bit und mehr verwendet. Bei der CD, dem ersten digitalen Audiostandard, wird eine Abtastfrequenz von 44,1 kHz (> 2 x 20 kHz) verwendet. Für beide Kanäle des Stereosignals kommt man auf eine Datenrate von 176,4 kByte/s (entspricht ca. 1,4 MBit/s; 1 Byte = 8 Bit). Für ein Musikstück von 4 Minuten kommt man damit auf eine enorme Datenmenge von 41,3 MByte. Damit war die Anwendung lange Zeit auf die CD beschränkt. Auch die Verarbeitung solcher Datenmengen in Echtzeit (1,4 MBit/s) stellte lange Zeit ein Problem dar.

Die effizientesten modernen Audiokompressionsverfahren orientieren sich an der Physiologie und Psychologie des Hörens. Jeder Ton wird erst ab einer bestimmten Mindestlautstärke hörbar, die von der Frequenz abhängig ist. Am empfindlichsten ist das menschliche Gehör im mittleren Frequenzbereich von ca. 2-4 kHz. Tiefere und höhere Töne müssen deutlich lauter sein, um wahrgenommen zu werden. Bild 2 zeigt die Hörschwelle, d.h. die Mindestlautstärke, eines Menschen in Abhängigkeit von der Frequenz. Die Hörschwellen sind individuell verschieden und verändern sich mit dem Alter. Kinder können im Mittel besser Höhen wahrnehmen und allgemein lässt das Gehör mit den Jahren nach. Töne, deren Lautstärke unterhalb der Hörschwelle liegen, sind für den Hörer irrelevant und müssen daher nicht codiert und übertragen werden.

Bild 2. Hörschwelle in Abhängigkeit von der Frequenz für Einzeltöne

Diese Hörschwellen gelten in dieser Form nur für Einzeltöne. In einem akustischen Kontext verändern sie sich z.T. drastisch durch so genannte Verdeckungseffekte, die sowohl im Zeit- als auch im Frequenzbereich auftreten. Wird ein Ton einer gewissen Lautstärke und Frequenz wahrgenommen, so werden in der Frequenz benachbarte leisere Töne verdeckt, d.h. sie sind nicht hörbar. Die Ausprägung dieser Frequenzverdeckung ist abhängig von der Frequenz und der Lautstärke. Sie nimmt mit der Entfernung zum verdeckenden Ton ab. Bild 3 veranschaulicht die Veränderung der Hörschwelle bei Tönen von 0,25, 2, 4 und 8 kHz und einer Lautstärke von jeweils 60 dB. Die resultierende Hörschwelle liegt deutlich höher als in Hörschwelle in Abhängigkeit von der Frequenz für Einzeltöne. Alle Töne unterhalb sind für den Hörer irrelevant. Andererseits kann man gerade so viel Quantisierungsrauschen zulassen, dass es noch unterhalb der Hörschwelle bleibt, d.h. man kann ggf. gröber quantisieren, als es den 16 Bit/Abtastwert entspricht.

Bild 3. Veränderung der Hörschwelle durch Verdeckung

In ähnlicher Form treten auch im Zeitbereich Verdeckungseffekte auf. So benötigt das Gehör eine gewisse Erholungszeit, um nach einem Ton einer bestimmten Frequenz und Lautstärke wieder leisere Töne ähnlicher Frequenz wahrnehmen zu können. Die Verdeckungszeit hängt ab von der Frequenz und der Lautstärke der Töne und liegt im Bereich von ca. 5-20 ms.

Das bekannteste moderne Audioformat ist das so genannte MP3 (genauer MPEG-1 Layer III), das maßgeblich am Fraunhofer Institut für Integrierte Schaltungen (IIS) http://www.iis.fraunhofer.de entwickelt wurde. Hierbei wird das Audiosignal jeweils für ein gewisses Zeitfenster in den Frequenzbereich transformiert (Frequenzanalyse, mathematische Operation). Hier wird das Signal nach den beschriebenen psychoakustischen Gesichtspunkten analysiert. Es wird eine Hörschwelle ermittelt und nur Frequenzanteile, die darüber liegen, werden berücksichtigt. Diese werden genau so grob quantisiert, dass das Rauschen gerade nicht hörbar wird. In der Beschreibung des Standards wird nur das Datenformat festgelegt. Die Analyse, d.h. vor allem das psychoakustische Modell, wird jedem Hersteller selbst überlassen. Auf diese Weise gibt es Konkurrenz unter den Anbietern (Encoder) bei gleichzeitiger Interoperabilität der Systeme, d.h. jeder MP3-Player kann das Audiosignal rekonstruieren. Ähnliche Prinzipien werden auch in neueren Verfahren zur Audiokompression wie z.B. MPEG-2 AAC in weiter optimierter Form angewendet.

Mit MP3 lassen sich Datenraten von 128 kBit/s und weniger für Stereoaudio in CD-Qualität erreichen. Zusammen mit der enorm gestiegenen Leistungsfähigkeit von Hardware und Software führte dies zu einer Vielzahl von neuen Anwendungen. Auf eine CD passen z.T. bis zu 10 Alben. Auf MP3-Player im Westentaschenformat und PC-Festplatten passen ganze Musikarchive. Auch neue Systeme zur Übertragung von digitalem Audio konnten realisiert werden, z.B. digitaler Rundfunk (DAB). Von großer Bedeutung ist insbesondere die Kombination mit dem Internet. Mittlerweile ist eine Vielzahl von Streamingdiensten verfügbar, bei denen man Musik aus dem Internet downloaden bzw. hören kann. Auch der illegale Austausch von MP3 codiertem Audio über das Internet erfreut sich großer Beliebtheit, was die Musikindustrie in ernsthafte Probleme bringt und sie zum Überdenken ihrer Marketingstrategie zwingt (siehe Abschnitt 6.3).

Neue Entwicklungen in der Audiokompression z.B. im neuen Standard MPEG-4 aber auch in proprietären Formaten (z.B. Dolby) zielen neben einer weiteren Optimierung der Kompression vor allem auf die Bereitstellung von neuen Funktionalitäten. Dies sind z.B. Mehrkanalformate für Surroundsound oder interaktives 3D-Audio (siehe Abschnitt 6).

4. Einzelbilder

Bilder werden in digitaler Form als zweidimensionale Matrix von Bildelementen (engl. picture element, pixel) repräsentiert, wobei jedem Pixel eine Farbe zugeordnet wird. [4.] Für die Repräsentation der Farbwerte gibt es eine Vielzahl verschiedener Formate, die z.T. an spezielle Anwendungen angepasst sind und sich größtenteils entsprechen. Beim RGB-Format wird jede Farbe durch je einen Anteil der drei Farben rot, grün und blau repräsentiert, die Mischung ergibt den jeweiligen Farbton. Bei einer Repräsentation mit 8 Bit pro Farbe ergeben sich 2563 = 16,7 Millionen verschiedene Farben, was einer photorealistischen Darstellung entspricht. In Spezialanwendungen werden z.T. höhere Bittiefen gefordert (z.B. 10 Bit Tiefe bei digitalisierten Röntgenbildern oder anderen medizinischen Bildern).

Die zweite wichtige Einflussgröße für die Datenrate bei Bildern ist die Anzahl der Pixel, d.h. die Auflösung der Bilder. Moderne Digitalkameras liefern Bilder mit bis zu 5 Millionen Pixeln. Diese Bilder lassen sich in beträchtlicher Größe darstellen bzw. wiedergeben, ohne dass der photorealistische Eindruck verloren geht. Ab einer gewissen Größe wird jedoch die Pixelstruktur sichtbar. Das Auflösungsvermögen digitaler Kameras reicht jedoch schon nahe an den des analogen Films heran. Weiterhin können digitale Bilder durch Abtastung analoger Originale (scannen) oder als Computergraphik entstehen. Bei einem digitalen Bild mit 3 Millionen Pixeln ergibt sich eine Datenmenge von insgesamt 9 MByte.

Ähnlich wie bei Audio geht man bei Bildern von den Eigenschaften des Sehsinns zur Kompression aus. Dabei spielt die Wahrnehmung von Farbe, Helligkeit und Kontrast eine Rolle. Beim weit verbreiteten JPEG-Format werden die Bilder in den zweidimensionalen Frequenzbereich transformiert. Die errechneten Frequenzkomponenten werden quantisiert. Die Transformation und Quantisierung stellen eine mathematische Operation dar, die im Bild enthaltene Irrelevanz unter impliziter Berücksichtigung der Eigenschaften des Sehsinns entfernt.

Bild 4 zeigt links ein Originalbild der Auflösung 1217x990 Pixel und rechts das gleiche Bild mit JPEG codiert, wobei ein extremer Kompressionsfaktor von 1:150 verwendet wurde. Trotzdem sind bei der Darstellung in dieser Größe nur schwer Unterschiede auszumachen.

Bild 4. Originalbild (links) und JPEG codiertes Bild mit Kompressionsfaktor 1:150 (rechts)
Bild 5 zeigt Details aus beiden Bildern in 16-facher Auflösung. Im Originalbild beginnt man die Pixelstruktur zu erkennen. Im codierten Bild sind nun jedoch erhebliche Artefakte zu erkennen. Die Farben sind verfälscht, Entlang der Kante zum Gebäude ist der Himmel deutlich verfälscht, insgesamt erkennt man deutlich eine Blockstruktur. Dies sind typische Artefakte der Bildcodierung, die jedoch nicht wahrnehmbar sind, solange man die codierten Bilder nicht zu groß darstellt, bzw. moderate Kompressionsfaktoren verwendet.

Bild 5. Detail aus Originalbild (links) und JPEG codiertem Bild mit Kompressionsfaktor 1:150 (rechts)

Auch in der Bildcodierung geht die Entwicklung weiter. Der neue Standard JPEG2000 verwendet z.B. eine andere Transformation (Wavelets), die eine noch bessere Kompression ermöglicht und besser an die Eigenschaften des Sehsinns angepasst ist. Außerdem werden neue Funktionalitäten unterstützt. So ist es z.B. möglich, einzelne Regionen feiner zu codieren (z.B. Vordergrund), d.h. die verfügbare Bitrate nach eigenen Gesichtspunkten zu verteilen. Außerdem wird eine progessive Codierung ermöglicht. Dabei ist der Bitstrom in verschiedenen Hierarchiestufen organisiert. Es ist damit möglich, zunächst ein Bild geringerer Auflösung zu decodieren, das mit der Zeit (mit Eintreffen der Daten) verfeinert wird. Dies ist insbesondere für Internetanwendungen geeignet, wobei sehr schnell ein Bild dargestellt werden kann, das immer mehr verbessert wird, anstatt ohne Bild lange auf die kompletten Daten zu warten.

Digitale Bilder vor allem in JPEG-Format werden heutzutage in einer Vielzahl von Multimediaanwendungen eingesetzt. In starkem Maße wird nun auch die Verwendung in mobilen Kommunikationsanwendungen propagiert. Moderne Mobiltelefone werden mit digitalen Kameras und entsprechenden Displays ausgerüstet.

5. Video

Bei Video kommt im Vergleich zu Einzelbildern die zeitliche Dimension, d.h. die Bewegung, hinzu. [4.] Dies macht die Codierung z.T. einfacher. Da jedes einzelne Bild nur einen Bruchteil einer Sekunde zu sehen ist, können manche Störungen gar nicht wahrgenommen werden. Man kann bewegten Inhalt nicht wie bei einem Standbild fixieren. Außerdem folgt der menschliche Betrachter der Bewegung in Video. Dadurch kann eine gewisse Unschärfe toleriert werden. Insgesamt kann man jedoch festhalten, dass im Gegensatz zu den psychoakustischen Modellen für Audio kein entsprechendes allgemeines psychovisuelles Modell für Video existiert, das man in ähnlicher Form für die Codierung von Video verwenden könnte.

Die verwendeten Formate und entstehenden Datenraten orientieren sich in erster Linie am Fernsehformat. Dieses hat in Europa 720x576 Bildpunkte (PAL) bei 50 Bildern pro Sekunde. Dabei werden jedoch nur jeweils Halbbilder übertragen (interlaced), die zeitlich abwechselnd nur die geraden bzw. ungeraden Zeilen eines Vollbildes enthalten. Als Farbformat wird YUV verwendet, wobei Y die Helligkeit eines Punktes repräsentiert und U und V Farbdifferenzsignale darstellen. Mit einem solchen Tripel aus YUV kann man jeden Farbwert repräsentieren. Da die menschliche Wahrnehmung Helligkeitsunterschiede sehr viel besser auflösen kann als Farbunterschiede, werden U und V unterabgetastet. Für jeweils 2 Y-Werte (Bildpunkte) gibt es je einen U und V Wert (in anderen Formaten oft auch nur 1 UV für 4 Y). Bei einer Quantisierung der Farbwerte mit 8 Bit ergibt sich insgesamt eine Datenrate von (720x576)/2 Pixel x 50 Hz * 8 Bit * 2 = 165,9 MBit/s. Für einen Spielfilm von 90 Minuten Länge benötigt man 104,3 GByte Speicherplatz, eine Datenrate bzw. -menge, die man mit keinem Übertragungskanal bzw. Speichermedium handhaben kann.

Eines der wichtigsten Mittel zur Kompression von Video ist die Bewegungskompensation. Dem liegt zugrunde, dass sich der Inhalt von Bild zu Bild nicht sprungartig ändern kann. Vergleicht man aufeinander folgende Bilder, so stellt man fest, dass sie größtenteils den gleichen Inhalt haben, zum Teil verschoben, verdreht und verzerrt. Durch Aufdeckungen hinter Objekten sowie am Bildrand bei Kamerabewegung kommt neuer Bildinhalt hinzu. In modernen Videocodierverfahren wird dies durch ein so genanntes Bewegungsmodell beschrieben. Beim wichtigsten Ansatz wird das Bild in reguläre Blöcke (z.B. 16x16 oder 8x8 Pixel) unterteilt. Dann wird versucht, diesen Block durch Verschiebung im letzten Bild zu finden. Das jeweils letzte Bild ist bereits übertragen und liegt somit beim Empfänger zum Vergleich vor. Man findet dann z.B. einen Block, der eine minimale Differenz der Bildpunkte zum aktuellen Block hat. Die Verschiebung kann man durch einen Vektor beschreiben. Diesen Vektor kann man übertragen und beim Empfänger zur Vorhersage (Prädiktion) aus dem letzten Bild verwenden. Man muss dann nur noch die Differenz zwischen dem aktuellen Bildinhalt und der Prädiktion übertragen. Bei einem guten Bewegungsmodell lässt sich die notwendige Bitrate auf diese Weise drastisch reduzieren.

Bild 6 zeigt links ein Originalbild aus einer Videosequenz. [7.] Auf der rechten Seite ist ein entsprechendes aus dem vorhergehenden Bild bewegungskompensiertes Bild gezeigt. Hierbei wurde ein globales Bewegungsmodell verwendet, das die Kamerabewegung als ganzes durch einen einzelnen Satz von Parametern kompensiert. Im Hintergrund ergibt sich nur ein geringer Prädiktionsfehler, obwohl ein geringer Unterschied bleibt. An der Stelle des Vordergrundobjekts ergibt sich hingegen ein recht hoher Fehler. Hier ist das Modell nicht für die Beschreibung der Bewegung geeignet.

Bild 6. Originalbild (links) und bewegungskompensiertes Bild (rechts)

Bei den meisten modernen Videocodierverfahren wird der Prädiktionsfehler, wie in Bild 6 rechts zu sehen, mittels einer Transformationscodierung codiert. Dies ist im Prinzip ähnlich wie bei Einzelbildern (JPEG), nur lassen sich die Prädiktionsfehlerbilder im Gegensatz zu den Originalbildern aufgrund ihrer Signalstatistik im Mittel sehr viel stärker komprimieren.

Neben den blockbasierten und globalen Bewegungsmodellen gibt es noch weitere, z.B. regionen- oder modellbasierte. Bei regionenbasierten Verfahren werden die Bilder automatisch in einzelne nichtreguläre Bereiche unterteilt (segmentiert). Dies geschieht inhaltsbezogen und kann auf physikalische Objekte abzielen. Bei modellbasierten Ansätzen nutzt man Vorwissen über die Szene aus, das man in einem expliziten Modell abbildet. Z.B. kann man bei Videotelefonsequenzen Gesichts- und Kopf-Schultermodelle aus der Computergraphik einsetzen. dabei wird ein solches 3D Modell an die reale Videosequenz angepasst. Man versucht dann die reale Bewegung durch Animationsparameter zu beschreiben. Dann müssen nur noch diese Animationsparameter übertragen werden, um beim Empfänger ein entsprechendes Bild zu erzeugen. Jedoch sind all diese anspruchsvollen Bewegungsmodelle entweder nicht universell einsetzbar, nicht ausgereift oder den blockbasierten Modellen unterlegen. Daher werden fast ausschließlich blockbasierte Verfahren in heutigen Standards angewendet.

Den wichtigsten Standard zur Videocodierung stellt MPEG-2 dar, mit dem sich Kompressionsfaktoren von 10-100 bei guter bis sehr guter Bildqualität erreichen lassen. Dies hängt auch von der Art des codierten Bildmaterials ab. Damit wird digitales Video für viele Anwendungen praktikabel. MPEG-2 wird zur Speicherung auf DVD verwendet. Auch das digitale Fernsehen DVB (Übertragung), das in den nächsten Jahren das analoge Fernsehen ablösen wird (in Berlin-Potsdam ab Sommer 2003), verwendet MPEG-2. Auch viele Videos, die im Computer-/Internetbereich kursieren (CD-Rom, etc.) sind im MPEG-2-Format codiert.

Der neuere MPEG-4 Standard ist im Computer-/Internetbereich ebenfalls bereits weit verbreitet (z.B. in DivX). Neben einer Erweiterung der Funktionalität (siehe Abschnitt 6) liefert er eine weiter verbesserte Kompression, die es z.B. ermöglicht, Spielfilme so weit zu komprimieren, dass sie auf eine oder zwei CDs passen. Auch der illegale Austausch von Raubkopien z.B. über das Internet ist damit praktikabel.

Für Echtzeitanwendungen über schmalbandige Kanäle (Internet Video-Streaming, Bildtelefon) reichen diese Kompressionsfaktoren jedoch nicht aus. Hier werden zeitlich und/oder örtlich reduzierte Bildformate eingesetzt, z.B. 352x288 Pixel oder 12,5 Hz. Die meisten solcher Videoclips, die man im Internet findet, sind jedoch in proprietären (firmeneigenen) Formaten abgelegt (Real, Microsoft, Apple). Diese sind MPEG-4 überlegen. Um dem entgegenzuwirken, wird Anfang 2003 ein neuer Standard verabschiedet, der gegenüber MPEG-4 eine weitere Reduktion der Bitrate um 50% bei gleicher Bildqualität ermöglicht (ITU H.264/MPEG-4 Part 10 AVC). Neben Internet-Streaming zielt dieser neue Standard auch auf Bildtelefonanwendungen ab. Es wird erwartet, dass auch diese Anwendung spätestens mit der Einführung von UMTS weitere Verbreitung findet.

Die weitere Forschung und Entwicklung in der reinen Videocodierung zielt auf eine weitere Erhöhung der Codiereffizienz und die Bereitstellung neuer Funktionalitäten ab. Neue Funktionalitäten sind z.B. Interaktivität (siehe Abschnitt 6) und Skalierbarkeit. Letztere ist besonders für Client/Server-Systeme z.B. im Internet von Bedeutung. Vom einem Server wird dabei Videomaterial (Spielfilm, Fernsehsendung) in einer Repräsentationsform bereitgestellt, die man in verschiedener Qualität (örtliche und zeitliche Auflösung, Bildqualität) decodieren kann. Damit können verschiedene Nutzer über Kanäle mit verschiedenen Datenraten optimal versorgt werden. Ein Nutzer mit DSL Anschluss und damit hoher Datenrate erhält eine gute Qualität, während über ein analoges Modem nur eine eingeschränkte Qualität erhältlich ist. Dies eröffnet für die Zukunft auch neue Geschäftsmodelle, da man gelieferte Programme in unterschiedlicher Qualität auch unterschiedlich abrechnen kann (siehe Abschnitt 6.3).

6. Neue formate

In den vorangegangenen Abschnitten wurden Formate zur reinen Signalcodierung vorgestellt, die altbekannte analoge Medien in digitaler Form repräsentieren. In Zukunft werden jedoch auch völlig neue Multimediaformate mehr und mehr Bedeutung bekommen. Im folgenden Abschnitt werden einige z.T. noch in der Entwicklung befindliche MPEG Standards beschrieben.

6.1 MPEG-4

Im Mittelpunkt dieses neuen Standards (offizieller Name: Information Technology - Coding of Audio-Visual Objects) steht der Begriff der audio-visuellen Szene, die aus Objekten zusammengesetzt ist. [6.] Diese Objekte können sehr viele verschiedene Arten von Multimedia sein: Audio, Video (das beliebig geformt sein kann, nicht nur rechteckig), Bilder, Text und auch 3D Computergraphik. Neue Codierformate für diese Medien sind in MPEG-4 ebenfalls definiert worden, aber das ist nicht das Entscheidende. Alle diese Elemente können in einer 2D oder 3D Szene z.B. vom Programmanbieter kombiniert werden, man spricht auch von Komposition einer audio-visuellen 3D Szene. Der Benutzer kann dann je nach Komposition in der Szene navigieren und mit dieser interagieren. Damit ist MPEG-4 der erste interaktive Multimediastandard. Ein Beispiel ist in Bild 7 gezeigt. Diese Szene enthält ein Einzelbild (Hintergrund, JPEG), 3D Computergraphik (Würfel, Schachfigur) und Video (auf den Würfel projiziert). Unten sind noch Schalter eingefügt. Diese erlauben es zum Beispiel, die Objekte zu verschieben, zu drehen, zu ändern (z.B. anderes Hintergrundbild). Diese Elemente wurden von einem Editor in dieser Weise zusammengefügt. Hierfür wurde eine spezielle binäre Beschreibungssprache entwickelt (BIFS).

Bild 7. Beispiel einer MPEG-4 Szene mit Video,
3D Computergraphik, Einzelbild und interaktiven Schaltflächen

Damit bietet MPEG-4 völlig neue Möglichkeiten zur Gestaltung von Multimedia. Bisher haben jedoch erst einfache Formen Verbreitung gefunden, z.B. normales Audio und Video auf PCs.

6.2 MPEG-7

Das zunehmende Angebot an Multimediainformation macht die Suche nach und Auswahl von Multimediainhalten zunehmend schwieriger. Der Benutzer von Multimediaterminals wird daher in Zukunft mehr und mehr auf automatische Werkzeuge angewiesen sein, die ihn bei der Suche und Auswahl unterstützen. [3.] Zu diesem Zweck ist es notwendig, die Multimediadaten mit Zusatzinformation zu versehen, die eine Inhaltsbeschreibung und Klassifikation ermöglicht. Bereits weit verbreitet ist die Beschreibung durch Text, wie sich an der Beliebtheit von textbasierten Suchmaschinen im Internet ablesen lässt. Diese Art von semantischer Information ist auch bestens zur Beschreibung von audiovisuellen Daten geeignet, sie muss jedoch weitgehend manuell erzeugt werden. In vielen Fällen wird solche Information jedoch ohnehin bei der Produktion erzeugt (Playlist, Storyboard, Besetzungslisten, Skripte, etc.) und könnte ohne großen Aufwand mit den audiovisuellen Daten verknüpft werden.

Neben solchen semantischen (high-level) Eigenschaften ist auch die Beschreibung durch signalbasierte (low-level) Merkmale möglich. Im Falle von Video sind dies z.B. Farbe, Textur, Form und Bewegung. Solche signalbasierten Beschreibungen sind meist automatisch extrahierbar und ermöglichen z.B. die Suche nach bestimmten Bildern in großen oder verteilten Bilddatenbanken anhand von Farb- oder Textureigenschaften.

Zu diesem Zweck wurde ein neuer Standard mit dem Namen "Multimedia Content Description Interface" kurz MPEG-7 verabschiedet, der im Gegensatz zu seinen Vorgängern in der MPEG Familie nicht auf die Kompression, sondern auf die Inhaltsbeschreibung von audiovisueller Information ausgerichtet ist. In diesem Zusammenhang werden Multimediadaten jeweils durch einen Satz charakteristischer Merkmale beschrieben (Descriptor, Description Scheme).

Ein allgemeines MPEG-7 System kann in die Bestandteile Merkmalsextraktion, Inhaltsbeschreibung und Anwendung unterteilt werden (vgl. Bild 8), wobei eine gewisse Analogie zu einem klassischen Codiersystem mit Encoder (Extraktion), Bitstrom (Beschreibung) und Decoder (Anwendung) besteht. Als Beispiel für eine MPEG-7-Anwendung sei eine Archivsuche genannt, in der zunächst aus einer Datenbank mit Millionen von Filmen eine gewünschte Untermenge gewählt wird. Dabei wird zunächst die MPEG-7-Beschreibung verwendet, um Filme zu finden, die einem bestimmten Suchkriterium entsprechen, z.B. einem gegebenen Beispiel oder einer Spezifikation ähnlich sind. Werden dann die letztlich gewünschten 10 Filme ermittelt, findet eine Übertragung der eigentlichen Daten z.B. durch MPEG-4 oder MPEG-2 statt.

Bild 8. Allgemeine Struktur eines MPEG-7 Systems

MPEG-7 stellt somit einen Standard dar, der in idealer Weise zur Verwaltung von Multimediaarchiven und den Zugriff darauf geeignet ist. In Zukunft könnte er daher für den Bibliothekar große Bedeutung erlangen.

6.3 MPEG-21

Wie sich am Beispiel von MP3 gezeigt hat, ergeben sich durch die Verfügbarkeit von digitalen Multimediaformaten völlig neue Möglichkeiten aber auch Gefahren. So führten z.B. illegale Raubkopien von Musik in MP3 zu hohen Verlusten in der Musikbranche. Zurzeit wird an einem neuen Standard gearbeitet, Multimedia Framework - MPEG-21, der den geregelten Austausch von digitalen Multimediadaten ermöglicht und die gesamte Verteilungskette vom Erzeuger bis zum Benutzer berücksichtigt. Im Zentrum stehen die Begriffe Digital Item (DI) und User. Ein DI kann jede Form von Multimediadaten sein. Zusätzlich können jedoch noch Attribute zugeordnet werden. Diese Attribute ermöglichen es z.B. ein DI eindeutig zu identifizieren, ihm Rechte wie Abspielen, Speichern, Kopieren (mit Anzahl), usw. zuzuordnen. In ähnlicher Weise können verschiedene User in einem solchen Framework verwaltet werden. Damit wird es z.B. möglich, einzelnen Individuen Nutzungsrechte an Multimediadaten zu gewähren, ohne dass Raubkopien erstellt werden können. Es ergeben sich völlig neue Businessmodelle für Handel und Vertrieb von Multimedia, was insbesondere auch für das Bibliothekswesen große Bedeutung erlangen könnte.

7. Fazit

Multimedia hat unsere Gesellschaft schon jetzt nachhaltig verändert. Bisher haben jedoch erst die einfachen, signalbasierten Formate zur digitalen Darstellung und Kompression von Audio, Einzelbildern und Video größere Verbreitung gefunden. Neue Formate, die über die digitale Repräsentation ihrer analogen Pendants hinausgehen, sind jedoch bereits verfügbar oder in Entwicklung. Diese erweitern die vorhandenen und schaffen neue Formen der Multimediakommunikation. Damit ist absehbar, dass der Fortschritt in der Multimediatechnik noch lange keine Sättigung erreicht hat und damit auch die soziokulturellen Veränderungen weiter gehen werden.


Literatur

[1.] http://www.iis.fraunhofer.de

[2.] ISO/IEC JTC1/SC29/WG11, "MPEG-21 Overview v.5", Doc. N5231, Shanghai, China, October 2002.

[3.] B.S. Manjunath, P. Salembier, T. Sikora, (Editors), "Introduction to MPEG-7: Multimedia Content Description Interface", Wiley Verlag, New York, 2002.

[4.] J.-R. Ohm, "Digitale Bildcodierung", Springer-Verlag, Berlin, Heidelberg, 1995.

[5.] A.V. Oppenheim, R.W. Schafer, "Zeitdiskrete Signalverarbeitung", Oldenbourg Verlag, 1999.

[6.] F. Pereira, T. Ebrahimi, (Editors), "The MPEG-4 Book", Prentice Hall Verlag, 2003.

[7.] A. Smolic, "Globale Bewegungsbeschreibung und Video Mosaiking unter Verwendung parametrischer 2-D Modelle, Schätzverfahren und Anwendungen", Dissertation an der Rheinisch-Westfälischen Technischen Hochschule Aachen (RWTH), Fakultät für Elektrotechnik und Informationstechnik, Mai 2001.

[8.] P. Vary, U. Heute, W. Hess, "Digitale Sprachsignalverarbeitung", B.G. Teubner Verlag, Stuttgart, 1998.

[9.] U. Zölzer, "Digital Audio Signal Processing", Wiley Verlag, New York, 1997.


Zum Autor

Dr.-Ing. Aljoscha Smolic

Fraunhofer Institut für Nachrichtentechnik
Heinrich-Hertz-Institut
Bildsignalverarbeitung (BS-AM)
Einsteinufer 37
D-10587 Berlin
E-Mail: smolic@hhi.de