MPEG-4 Ein Überblick Vortrag in der Projektgruppe Verteilte Multimedia-Serversysteme WS 00/01

Preview:

Citation preview

MPEG-4Ein Überblick

Vortrag in der Projektgruppe „Verteilte Multimedia-Serversysteme“

WS 00/01

2

Gliederung

EinführungEinführung

VisualVisual

AudioAudio

DMIFDMIF

SystemsSystems

ProfilesProfiles

3

Wiederholung

Technik von MPEG-2:Intraframe-Codierung

DCT, RLE

Interframe-CodierungMotion CompensationI-, P-, B-Frames

hierarchische CodierungBase LayerEnhancement Layer

Einführung DMIFAudioVisual Systems Profiles

4

Überblick (1)

offizielle Bezeichnung: ISO/IEC 14496 Lizenzierung kostenpflichtig

Tools auf CD-ROM für $40 erhältlich

fertiggestellt im Oktober 1998 Anfang 1999: internationaler Standard Ende 1999: MPEG-4 Version 2

nur Erweiterungen, keine Veränderungen

neue Erweiterungen in Arbeit

Einführung DMIFAudioVisual Systems Profiles

5

Überblick (2)

MPEG2 Kompression von Videodaten

MPEG4 erweiterte FunktionalitätKompressionFlexibilitätkeine Festlegung auf bestimmtes Verfahren

oft nur Interfaces standardisiert

stattdessen: Sammlung verschiedener Tools

Einführung DMIFAudioVisual Systems Profiles

6

Anwendungen

Videos Fußball im Pay-TV

nicht bezahlt: kein Ballbezahlt: Ball erscheint

Mobilfunk Internettelefonie Interaktive Videospiele Videokonferenzen

Einführung DMIFAudioVisual Systems Profiles

7

Zielgruppen

AutorenWiederverwendbarkeitFlexibilitätRechteverwaltung

NetzwerkbetreuerFramework - „Unterbau“ muss vom

Netzwerkbetreiber bereitgestellt werden

Endbenutzerhohes Maß an InteraktivitätQualität auch bei niedrigen BitratenFehlerrobustheit mobil

Einführung DMIFAudioVisual Systems Profiles

8

Grundidee

Szene wird in „Einheiten“ unterteilt Media Objects

Zusammensetzung der Media Objects wird gespeichert Szenengraph

Einführung DMIFAudioVisual Systems Profiles

9

Media Objects

Video ObjectsNatural

Kamera

Synthetic computergeneriert

Audio ObjectsNatural

Mikrofon

Synthetic computergeneriert

Einführung DMIFAudioVisual Systems Profiles

10

Szenengraph (1)

Szenengraph sorgt für korrekte Positionierung der Media Objectsräumlichzeitlich

Realisiert durch gerichteten, azyklischen Graphen scene

Person 2D Background Video

picturevoice

Einführung DMIFAudioVisual Systems Profiles

11

Szenengraph (2)

jedes Media Object besitzt ein eigenes Koordinatensystem

Szenengraph verfügt selbst auch über ein Koordinatensystem

durch Berechnung: „virtuelle Kamera“ möglichBlickwinkelAusschnitt

Einführung DMIFAudioVisual Systems Profiles

12

Hierarchie

Media Objects einer Szene sind hierarchisch sortiert

Blätter: Primitive Media ObjectsStill Images - unbewegte Bilder (z. B.

Hintergrund)Video Objects (z. B. Person)Audio Objects (z. B. Stimme)

Bild einer Person

Stimme einer Person

„komplette“Person

Einführung DMIFAudioVisual Systems Profiles

13

Streams

MPEG-Standards basieren auf Datenströmen (Streams)

in MPEG-2 drei Arten von StreamsPacketized Elementary Stream

Audio- oder Videostrom (in Pakete aufgeteilt)

Program Stream „Programme“ codiert als PES Anwendungen ohne Fehler (DVD, ...)

Transport Stream für unsichere Übertragungskanäle

Einführung DMIFAudioVisual Systems Profiles

14

Übertragung

SenderObjekte komprimieren

1 Primitive Media Object 1 Stream

Zusammenfassen zu einem Stream (Multiplex)

EmpfängerStream trennen (Demultiplex)

in Elementary Streams zerlegen Objekte einlesen (Decode)

Szenengraph einlesen 1 Elementary Stream (Decode)

Zusammensetzen (Composition) und Aufbauen (Rendering) der Szene

Einführung DMIFAudioVisual Systems Profiles

15

Schichtenmodell

Dekodieren der Datenströme

Netzwerk / CD / Kabel

Delivery Layer

Synchronisation Layer

Decompression Layer

Aufbauen der Szene

ZeitstempelFehlerkorrektur

DatenempfangDemultiplex

16

Aufbauen einer SzeneCompositionRendering

.

.

.

Media Objects

Scene Graph

Einführung DMIFAudioVisual Systems Profiles

Syn

chro

nisa

tion

Layer

17

Gliederung

EinführungEinführung

VisualVisual

AudioAudio

DMIFDMIF

SystemsSystems

ProfilesProfiles

18

Visual

Kodierung von visuellen Objekten in natürlichen und synthetischen, bewegten Bildern

Verknüpfung mit Ton möglich

Ziel:breites Anwendungsfeldeffiziente Komprimierung erreichen

Einführung DMIFAudioVisual Systems Profiles

19

Videoformate

Bitratenmin. 5kbit/smax. 10 Mbit/s

Formateprogressiveinterlaced

Auflösungenmin. sub-QCIF (172 x 144 Pixel)max. > HDTV (1440 x 1152 Pixel)

Einführung DMIFAudioVisual Systems Profiles

20

„Content-based“ Funktionalität

Video Objects einzeln kodiert

Random Access auf einzelnen Objekten play, pause, forward, ...

Manipulation einzelner Video ObjectsBsp.: Text auf sich bewegendes Video Object

legen

Einführung DMIFAudioVisual Systems Profiles

21

Skalierbarkeit (1)

Complexity Scalability (Encoder)Streams verschiedener Komplexität erzeugen

Complexity Scalability (Decoder)festen Stream in verschiedenen

Komplexitätsstufen abspielen schwache Decoder decodieren nur Teil des Streams

Einführung DMIFAudioVisual Systems Profiles

22

Skalierbarkeit (2)

Spatial Scalability (Decoder)Auflösung einzelner Video Objects skalierbar

Temporal Scalability (Decoder)nicht alle Frames werden wiedergegeben

Quality Scalability (Encoder)Benutzung verschiedener Layer (s. MPEG-2)

Einführung DMIFAudioVisual Systems Profiles

23

Natural Video Objects

natürliches Video Object besteht aus folgenden Informationen:Form (shape)Texturen (texture)Bewegungsinformationen (motion)

zusätzliche Kompressionsmöglichkeit:Sprite Coding

Einführung DMIFAudioVisual Systems Profiles

24

Shape Coding

Binary Shape CodingMatrix (Binary Alpha

Map)definiert, ob Pixel zu

Objekt gehört0 - liegt nicht drin255 - liegt drin

Alpha Shape Codingdefiniert TransparenzWert zwischen 0

(transparent) und 255 (undurchsichtig)

0 255

0 255 255 255

255 255 255

255 255 255

00

0

255

0 0

0

255

255

0

0

0

0

255255

255

Einführung DMIFAudioVisual Systems Profiles

25

Texture Coding

gleiche Kodierung wie bei MPEG-2Diskrete Kosinustransformation (DCT)Quantisierung

Mapping auf 2D-/3D-Oberflächen möglichspezielle Transformation (Wavelet)

Einführung DMIFAudioVisual Systems Profiles

26

Motion Coding

Motion Compensation Ähnlichkeiten in Bildfolgen ausnutzen

I-VOP

P-VOPB-VOP

Zeit

Einführung DMIFAudioVisual Systems Profiles

27

Sprite Coding

Hintergrund (Sprite) wird nur einmal übertragen

auf Decoder-Seite in Buffer gespeichert nur noch Kamerapositionen werden geändert gute Kompressionsrate

Einführung DMIFAudioVisual Systems Profiles

28

Synthetic Video Objects

Facial Animation - Animation von Gesichtern

Body Animation

2D Meshes

3D Meshes

View-dependent Scalability

Einführung DMIFAudioVisual Systems Profiles

29

Facial Animation

Form, Textur und Gesichtsausdruck werden nur durch Parameter übergebenFacial Definition Parameters (FDP)

Gesicht wird durch 84 FDPs beschrieben FDPs werden vom Decoder in Gesicht

umgesetzt Animation:

Facial Animation Parameters Gesichtsausdrücke

Body Animation analog

Einführung DMIFAudioVisual Systems Profiles

30

2D Meshes

Aufteilung des 2-dimensionalen Raumes in Polygonein MPEG-4 nur Dreiecke

Textur wird über das Gittermodell gelegt Texture Mapping

Animation Verschieben der

Knotenpunkte

Einführung DMIFAudioVisual Systems Profiles

31

View-dependent Scalability

wird in 3D-Welten benutzt ermöglicht Übertragung von Texturen nur sichtbare Informationen werden

übertragen spart Bandbreite

Berechnung auf Encoder- und Decoder-Seite Rückkanal erforderlich

Einführung DMIFAudioVisual Systems Profiles

32

Gliederung

EinführungEinführung

VisualVisual

AudioAudio

DMIFDMIF

SystemsSystems

ProfilesProfiles

33

Audio

Tools fürRepräsentation (Sprache, Musik)

KompressionSkalierbarkeitEffekte

künstliche HerstellungDaten in Textform übergebenEffekte (Widerhall, ...)

meistens nur Interfacekonkrete Implementierung flexibel

Einführung DMIFAudioVisual Systems

34

Natural Audio Objects

Sprachespezielle Standards für Sprachoptimierung

geringer Frequenzbereich geringe Bitrate

MusikTwinVQ

besser als MP3

MPEG-2 Advanced Audio Coding (AAC)

Einführung DMIFAudioVisual Systems Profiles

35

Synthesized Speech

Text To Speech (TTS)-InterfaceDecoder wandelt Text in gesprochene Sprache

um extrem niedrige Bitraten

Unterstützung fürphonetische ParameterSynchronisation mit Lippenbewegungenpause, resume, jump forward/backwardDialekte, Sprachunterstützung

Einführung DMIFAudioVisual Systems Profiles

36

Synthesized Audio

MIDI (Musical Instrument Digital Interface)Synthesizer auf Decoder-Seitenur Noten und Information über Instrument

werden übertragen spart Bandbreite

Erweiterung: SAOL (Structured Audio Orchestra Language)Funktionalität von MIDIDefinition des Instrumentes kann im Stream

mitgeschickt werden Decoder setzt Instrumente und Noten zusammen

Einführung DMIFAudioVisual Systems Profiles

37

Gliederung

EinführungEinführung

VisualVisual

AudioAudio

DMIFDMIF

SystemsSystems

ProfilesProfiles

38

Streaming

MPEG-4 Standard stellt flexibles Handling für Streams zur Verfügung kann auf beliebige Protokolle aufsetzen

Verschiedenste Nutzungsarten möglichInternetBroadcastDVD, CD etc.

Einführung DMIFAudioVisual Systems Profiles

39

DMIF

Delivery Multimedia Integration FrameworkSitzungsprotokoll Framework

ähnlich FTPUnterschied: statt Daten werden Pointer

übertragen, wo zu streamende Daten zu finden sind

stellt Interface für Applikationen zur VerfügungDMIF Application Interface (DAI)

Einführung DMIFAudioVisual Systems Profiles

40

Aufbau des DMIF

FlexMux

RTP UDP/IP MPEG-2 TS Datei

SLSL ......synchronisation

layer

deliverylayer

DMIFlayer

TransMuxlayer

DAI

DNI

ESI

Einführung DMIFAudioVisual Systems Profiles

41

DMIF AblaufLocal DMIF

Application

DMIF

Remote DMIF

Application

DMIF

1. App. (local) DMIF (local) spricht DAI an Aufbau Sitzung zwischen

DMIF und Applikation

2. DMIF (local) DMIF (remote) Kommunikation über DNI baut Netzwerksitzung auf

3. DMIF (remote) App. (remote) Aufbau Sitzung zwischen DMIF und App. (lokal)

4. App. (remote) App. (local) Kommunikation über 1, 2 und 3

1

2

3

4

Einführung DMIFAudioVisual Systems Profiles

42

Gliederung

EinführungEinführung

VisualVisual

AudioAudio

DMIFDMIF

SystemsSystems

ProfilesProfiles

43

Systems

Sammlung von Tools

beschreiben Verhältnis zwischen den Objekten einer Szene

Verhältnis wird auf 2 Ebenen beschriebenBinary Format for Scenes (BIFS)Object Descriptors (ODs)

beschreiben Verhältnis der Streams eines Objekteszusätzliche Informationen (URL, Intellectual Property,

...)

Einführung DMIFAudioVisual Systems Profiles

44

Zusätzliche Themen

User Interaction FlexMux Tool

s. DMIF

MPEG-4 File Format MPEG-J Transportschicht-Unabhängigkeit

s. DMIF

Intellectual Property-Verwaltung

Einführung DMIFAudioVisual Systems Profiles

45

BIFS (1)

Sprache zur Beschreibung von 3D-Szenenkomplett abgeleitet aus VRML (Virtual Reality

Modeling Language)

Möglichkeit zur Gruppierung von MOs Szenenbeschreibung

Position der MOs in Raum und Zeit

Änderung der Attribute

Einführung DMIFAudioVisual Systems Profiles

46

BIFS (2)

Andere ManipulationenEreignismodell

Userinteraktion

vorgefertige Funktionen zur Konstruktion von Szenen Graphics Primitives

Advanced BIFS (Version 2)Advanced Sound Environment Modeling

Widerhall, ...

und mehr

Einführung DMIFAudioVisual Systems Profiles

47

User Interaction

muss explizit vom Autor erlaubt werden client-seitige Interaktion

Änderung des Inhalts erfolgt beim EndbenutzerGrößenänderungSichtbarkeitPosition, ...

durch Events (Mausklick, Tastatur)

server-seitige Interaktionähnlich, jedoch erfolgen Änderungen beim

SenderRückkanal (back channel) erforderlich

Einführung DMIFAudioVisual Systems Profiles

48

Intellectual Property (1)

Management und Schutz von geistigem Eigentum (intellectual property)schnelle Entwicklung dieses Gebietes stellt nur System zur Verfügung, keine konkrete

Implementierung

in einem MO kann eine Intellectual Property Identification (IPI) gespeichert werdenInhaltArt des InhaltsRechteinhaber

Einführung DMIFAudioVisual Systems Profiles

49

Intellectual Property (2)

Version 2: Schnittstelle für Intellectual Property Management and Protection (IPMP) Systemkann die Daten aus IPIs benutzen

Funktionen, die vom IPMP System unterstützt werden:kontrollierter Zugang zu geistigem Eigentum;

Kontrolle erfolgt vom ProviderVerifikation der Authentizität des SendersVerifikation Integrität des IPsSchutz vor Raubkopien

Einführung DMIFAudioVisual Systems Profiles

50

Intellectual Property Schema

Szenen-graph

Demux

MPEG-4Stream MO

Decode

Objekt-deskriptoren

CompositionRendering

IPMPS

Stream flow controller

Einführung DMIFAudioVisual Systems Profiles

51

MPEG-J

Erlaubt, MPEG4-Decoder über Javacode zu bedienen

stellt APIs zur VerfügungKontrollmechanismen für MPEG-4 Medien in

Java möglich

Java-Applikation wird als eigener Elementary Stream übertragenÜbergeben an MPEG-J runtime environmentApplikation kann auf Komponenten und Daten

des MPEG-4-Players zugreifen

Einführung DMIFAudioVisual Systems Profiles

52

MPEG-J APIs

Scene Graph APIHinzufügen/Entfernen von MOs, ...

Resource Manager APIRegelt Performance

Network APIErlaubt Interaktion mit DMIF

Media Decoders APIKontrolliert die Decoder, die am aktuellen

Rechner verfügbar sind

Einführung DMIFAudioVisual Systems Profiles

53

MPEG-J Schema

MPEG-JEin-/Ausgabe

NW API MD API SG API RM API

DMIF

Demux

BIFS Decoder Szenengraph

Media Decoder

CompositionRendering

Einführung DMIFAudioVisual Systems Profiles

54

MP4 File Format

basiert auf dem QuickTime Format (Apple)

besteht aus objekt-ähnlichen Einheiten: Atoms

alle Atoms, die Informationen zu einem movie enthalten, bilden ein Movie Atom

Eigentliche Mediendatenin der MP4-Datei selbst (Media Data Atoms)außerhalb (Zugriff via URL)

Einführung DMIFAudioVisual Systems Profiles

55

MP4 File Aufbau

MP4-Datei

movie atom

Media Data Atom

initialobject

descriptor

BIFS

OD

video

audio MP4-Datei

BIFS units

Media Data Atom

Einführung DMIFAudioVisual Systems Profiles

56

Gliederung

EinführungEinführung

VisualVisual

AudioAudio

DMIFDMIF

SystemsSystems

ProfilesProfiles

57

Profiles

Profiles limitieren Tools, die der Decoder implementieren kann optimale Qualität für spezielle Anwendungen

Beispiel MPEG-2: Main Profile@Main Level ein Profile besteht aus 1 oder mehr Levels Profiles existieren für

Audio VisualScene DescriptionMPEG-JObject Descriptors

Einführung DMIFAudioVisual Systems Profiles

58

Visual/Audio Profiles

Visualinsgesamt 15 ProfilesSimple

Effizient, schnell, für rechteckige Videoobjekte

MainBeliebig geformte, skalierbare ObjekteZiel: Entertainment, DVD-Anwendungen

AudioInsgesamt 8 ProfilesSpeech ProfileMain Profile

Einführung DMIFAudioVisual Systems Profiles

59

MPEG-4 >Version 2

nur noch Änderungen bei Visuals/Systems Visual

Tools für MPEG-4 in professionellen StudiosDigital Cinema: Codieren ohne Verlust

SystemsBIFS Extensible MPEG-4 Textual Format

Szene durch Text beschreiben

2D und 3D Animation

Einführung DMIFAudioVisual Systems Profiles

60

Ende

Danke

Recommended