Livre blanc sur le format XAVC
Document technique sur le nouveau format d'enregistrement de Sony
Introduction
Le codec AVC H.264/MPEG-4 Part 10 est principalement utilisé dans les systèmes de distribution HDTV, comme le Blu-ray, la diffusion de programmes télévisés (TNT, câble et satellite) et les navigateurs Internet. Les premiers documents de normalisation datent de 2003 et ils n’ont cessé d’être modifiés jusqu’en 2009 pour inclure bien plus que les normes de distribution HDTV. Aujourd’hui, le monde du broadcast couvre un spectre très étendu de données d’images compressées, avec des débits commençant à quelques kilobits par seconde pour atteindre 1,2 Gbit/s. Les paramètres variés incluent la 4K, la 3D, l’échantillonnage 14 bits, et des fréquences supérieures à 100 images par seconde. Sony faisait partie des membres actifs de l’équipe JVT (Joint Video Team) qui a mis au point cette norme, et a redoublé d’efforts pour établir le format AVCHD destiné à élargir les niveaux et les profils du codec H.264.
Figure 1
Progrès de la technologie CMOS.
Figure 2
Progrès des technologies d’enregistrement SxS.
Media | SxS Pro | SxS-1 | SxS Pro + | XQD série N | XQD série S |
---|---|---|---|---|---|
Année de lancement | 2007 | 2009 | 2013 | 2013 | 2013 |
Débit constant | 400 Mbit/s | 240 Mbit/s | 1,3 Gbit/s | - | - |
Vitesse de lecture max. | 1,2 Gbit/s | 1,2 Gbit/s | 1,6 Gbit/s | 1 Gbit/s | 1,44 Gbit/s |
Capacité de stockage | 8 Go/16 Go (2007) 32 Go (2008) 64 Go (2011) | 32 Go (2009) 64 Go (2010) | 64 Go/128 Go | 32 Go/64 Go | 32 Go/64 Go |
L’extension du standard H.264 coïncide avec le développement rapide des technologies d’imagerie haute résolution ou HFR (High Frame Rate) telles que celles utilisées pour les capteurs et les écrans, ainsi que les technologies de stockage haute vitesse. Une technologie de compression aussi performante que le H.264 joue un rôle essentiel dans l’encodage des données d’imagerie générées par les capteurs de dernière génération dans des fichiers de taille plus modeste. Cela permet d’enregistrer les images sur des cartes mémoire abordables, puis de les éditer et de les afficher sur des ordinateurs ou à l’aide de logiciels de montage grand public. La figure 1 montre les progrès de la technologie d’imagerie CMOS, notamment les capteurs de Sony offrant des fréquences de transfert supérieures à 30 Gbit/s. Au cours des prochaines années, l’industrie s’attend à une hausse importante du développement de ces capteurs haute résolution, offrant des fréquences et des débits élevés. La figure 2) montre les progrès des technologies utilisées par les cartes mémoire SxS et XQD. Remarque : les cartes les plus récentes permettent un enregistrement en temps réel au-delà de 1 Gbit/s, et leur capacité n’a cessé d’augmenter au fil des ans. Elles sont toujours aussi compactes, voire encore plus petites. Ce document illustre les attributs et les avantages du format XAVC. Il explique également comment ce format s’insère dans le workflow de production actuel, parallèlement aux formats de compression qui ont déjà fait leurs preuves, notamment MPEG2, MPEG4 SStP, et divers fichiers RAW. Sony a développé et commercialisé un capteur d’image affichant des fréquences de transfert supérieures à 30 Gbit/s. Au cours des prochaines années, l’industrie s’attend à une hausse importante du développement de ces capteurs haute résolution, offrant des fréquences et des débits élevés. La figure 2 montre les progrès des technologies utilisées par les cartes mémoire SxS et XQD. Remarque : les cartes les plus récentes permettent un enregistrement en temps réel au-delà de 1 Gbit/s, et leur capacité n’a cessé d’augmenter au fil des ans. Elles sont toujours aussi compactes, voire encore plus petites. Ce document illustre les attributs et les avantages du format XAVC. Il explique également comment ce format s’insère dans le workflow de production actuel, parallèlement aux formats de compression qui ont déjà fait leurs preuves, notamment MPEG2, MPEG4 SStP, et divers fichiers RAW.
Le format XAVC
Le format XAVC de Sony est conforme à la norme H.264 niveau 5.2. L’essence vidéo est encapsulée dans un wrapper standard MXF OP-1a, et s’accompagne de métadatas et d’éléments audio. L’objectif premier du format XAVC est de disposer d’une gamme d’outils de production professionnels abordables qui prennent en charge les formats 4K, HD et HFR (High Frame Rate). La figure 3 illustre les possibilités offertes par le format XAVC. Ce tableau indique la compatibilité générale du format XAVC et les spécifications des produits actuels ne permettent pas forcément l’implémentation de toutes les caractéristiques offertes. Les informations fournies excluent également certaines options d’enregistrement en accéléré et au ralenti (undercranking et overcranking) incluses sur certains produits. De plus, le format d’encapsulage MP4 est également présenté et commercialisé sous le nom XAVC S afin de répondre à la demande du marché grand public. Cette expansion est certaine d’encourager la croissance du contenu 4K sur le marché grand public.
Le XAVC et la 4K
L’utilisation des capteurs numériques 4K se limite aujourd’hui au secteur du cinéma numérique où le standard du DCI (Digital Cinema Initiative) équivaut à 4096 x 2160 à 24 ips avec des fichiers MXF utilisant la compression JPEG2000. Plusieurs fabricants de technologies d’affichage grand public ont commencé à commercialiser des écrans plats et des systèmes de projection 4K pour le Home Cinéma. Même si la diffusion terrestre 4K prendra certainement plusieurs années à atteindre le petit écran, certains fournisseurs de contenu et diffuseurs par réseau/satellite/câble perçoivent la 4K comme une opportunité commerciale majeure. Le contenu HDTV peut déjà bénéficier des écrans 4K, car le processus d’up-conversion interne réduit les effets de lignes apparentes et de pixellisation sur les grands écrans. Par ailleurs, plusieurs flux HDTV peuvent être affichés simultanément en pleine résolution. La plupart des appareils photo actuels, même ceux intégrés aux téléphones portables, offrent une résolution native supérieure à la HDTV. A la maison, l’écran 4K peut servir de cadre photo numérique haut de gamme.
Figure 3
Présentation du format XAVC.
Plage | Résolution | Cadence | Couleur | Débit binaire max. | Intra/Long |
---|---|---|---|---|---|
4K | 4096 x 2160 3840 x 2160 | De 23,98p à 59,94p | De 4:2:0/8 bits à 4:4:4/12 bits | 960 Mbit/s | Intra Long |
HD | 2048 x 1080 1920 x 1080 1440x1080 1280x720 | De 23,98p à 59,94p 50i/59,94i | 4:2:0/8 bits à 4:4:4/12 bits | 440 Mbit/s | Intra Long |
Proxy | De 23,98p à 59.94p | 4:2:0/8 bits | 28 Mbit/s | Long |
Grâce aux nombreuses configurations offertes par le format XAVC, la bande passante d’imagerie 4K peut passer en dessous des 100 Mbit/s selon la structure des GOP (Group of images), la fréquence d’image et l’échantillonnage des couleurs. Une sélection si efficace des différents paramètres permettra d’améliorer considérablement la qualité de l’expérience Home Cinéma. La même chose s’applique au secteur B2B pour lesquelles la haute résolution est au cœur de toutes les applications. Le nombre de pixels actifs de la plupart des écrans 4K destinés à un usage grand public sera limité à 3840 x 2160 (Quad HD ou QFHD), soit quatre fois plus que la Full HD et ses 1 920 x 1 080 pixels. Cela diffère de la norme cinématographique qui offre 4 096 pixels sur toute la surface de l’image. Le format XAVC couvre les formats d’échantillonnage horizontaux 4 096 et 3 840, assurant la compatibilité des outils de production XAVC avec les applications cinématographiques et télévisuelles. La nouvelle caméra PMW-F55 de Sony enregistre au format intra-image 4K XAVC à des fréquences situées entre 240 Mbit/s (à 24P) et 600 Mbit/s (à 60P) à l’intérieur de la caméra. Le serveur PWS-4400 prend en charge ces points de fonctionnement pour s’adapter à la plate-forme de production 4K en direct. Le débit binaire de la 4K a été au cœur des discussions tout au long de la phase de développement. Un débit binaire de 100 Mbit/s pour 1080i est considéré comme raisonnable car il est largement utilisé dans l’industrie broadcast. En théorie, pour permettre de traiter des signaux 4K 60p, une résolution quatre fois supérieure et une double cadence d’image, il faudrait huit fois plus de données. Cela signifie 800 Mbit/s. Néanmoins, 25 % des données peuvent être réduites grâce aux performances d’encodage des images progressives par rapport aux images entrelacées. Afin d’enregistrer de tels débits de données sur un support abordable et compact, Sony a conçu la nouvelle gamme de cartes SxS Pro+. Les cartes mémoire SxS Pro+ sont compatibles avec tous les appareils dotés d’un slot SxS et offrent un débit de 1,3 Gbit/s. La PMW-F55 peut enregistrer jusqu’à 50 minutes au format 4K/24P ou environ 20 minutes au format 4K/60P, sur une seule carte mémoire SxS PRO+ 128 Go.
Workflows XAVC, RAW et ACES
La communauté de production cinématographique numérique est en passe de normaliser un ensemble commun de paramètres qui rassemblent les images générées sur film, en numérique et celles créées sur les ordinateurs. L’ACES (Academy Color Encoding System) est une spécification destinée à trouver un terrain d’entente pour les images de diverses origines. Elle offre une marge de manœuvre maximale pour la manipulation des images (étalonnage des couleurs) et permet d’assurer une finition homogène quels que soient les outils et les fournisseurs de service utilisés. Sony participe activement à l’initiative ACES et a créé plusieurs IDT (Input Device Transforms) pour permettre aux caméras haut de gamme de s’intégrer au workflow ACES. La profondeur 16 bits à virgule semi-flottante des fichiers ACES optimise les performances des images provenant de caméras haut de gamme et d’éléments CGI, tout en offrant une flexibilité optimale pour l’étalonnage des couleurs dans la suite DI (Digital Intermediate). C’est la raison pour laquelle les caméras récentes de Sony (F65+SR-R4, PMW-F55+AXS-R5, PMW-F5+AXS-R5) permettent d’enregistrer des fichiers RAW linéaires 16 bits via des enregistreurs externes.
Figure 4
Comparaison de la taille des fichiers d’image.
Pendant que les caméras PMW-F5/F55 enregistrent des fichiers RAW sur l’enregistreur externe AXS-R5, les deux cartes SxS de la caméra permettent d’enregistrer simultanément des fichiers XAVC en résolution HD, en synchronisation parfaite avec les fichiers RAW pour l’enregistrement de marqueurs de début et de fin, de l’audio, du timecode et d’autres métadatas comme les noms des fichiers. Les fichiers XAVC sont donc des fichiers complémentaires du format RAW, et permettent de lancer immédiatement le processus de montage lorsque les cartes SxS sont retirées des caméras. Pour procéder à l’étalonnage des couleurs et au montage des images issues des fichiers RAW, il est nécessaire d’ajouter une étape de dématriçage supplémentaire appelée « débayerisation » ou encore « demosaicing ». Même si les fichiers RAW offrent une créativité hors pair, essentielle pour la post-production, il peut y avoir des contraintes de temps et de budget. Les fichiers XAVC 4K peuvent donc servir d’alternative abordable aux fichiers RAW. Comme le montre la figure 5, la taille du fichier XAVC 4K est semblable à celle des fichiers HD utilisés communément aujourd’hui. Les fichiers XAVC 4K deviendront l’un des moteurs principaux de l’essor de la production en 4K.
Le XAVC et la HDTV
Selon toute logique, les nouveaux algorithmes de compression sont toujours plus performants que leurs prédécesseurs. Même si cela est vrai car la même qualité d’image peut être obtenue avec une quantité moins importante de données ou un débit moins élevé, la complexité croissante des techniques d’encodage modernes nécessite plus de puissance informatique, ce qui représente un défi majeur lors de la migration des infrastructures de production et des workflows associés d’une génération à l’autre. La puissance de traitement nécessaire au décodage d’un flux de données compressées est un critère essentiel lorsque plusieurs fichiers sont utilisés simultanément au cours d’une session de montage.
Figure 5
Comparaison de la vitesse de décodage du logiciel.
La plupart des grands diffuseurs et producteurs d’émissions de téléréalité travaillent actuellement avec le format MPEG2 HD Long GOP (50 Mbit/s ou 35 Mbit/s) pour la production HDTV car il s’agit d’un format compact qui offre une haute qualité d’image et fonctionne avec un ordinateur standard. Qu’il s’agisse de journaux télévisés, de programmes de téléréalité ou d’événements sportifs, une fréquence de 35 à 50 Mbit/s est la plage idéale pour la production HDTV dématérialisée. La figure 6 illustre les différentes méthodes de décodage des flux vidéo compressés sur une plateforme informatique donnée, sans avoir recours à l’accélération matérielle ou aux GPU. L’échelle horizontale représente le nombre d’images par seconde et il est clair que le format MPEG2 50 Mbit/s est le plus rapide (ou le plus performant) parmi ses concurrents. Plusieurs diffuseurs ont récemment exprimé leur intérêt pour le format H.264 comme format principal en interne pour les raisons suivantes :
- Consolidation de tous les fichiers des programmes, du prime time au journal télévisé, en un seul codec encapsulé dans un wrapper standard, commun au sein de l’industrie ;
- Echantillonnage 10 bits (au lieu des 8 bits du MPEG2) ;
- Qualité d’image MPEG2 de 50 Mbit/s considérée comme non suffisante pour remplacer les formats sur cassettes tels que le HDCAM ;
- L’espace de stockage, la bande passante du réseau et la puissance de traitement ne sont plus un problème pour la gestion de plusieurs flux à haut débit ;
Pour les opérations HDTV 50/60p, le XAVC Intra prend en charge jusqu’à 440 Mbit/s et peut servir de format intermédiaire qui viendrait combler le vide entre le format de mastérisation (MPEG4 SStP ou HDCAM-SR) et le MPEG2. Le format XAVC joue également un rôle essentiel car il offre à ce caméscope portable une capacité HFR en résolution HDTV ; La PMW-F55 enregistre des images Full HD 1920 x 1080 10 bits 4:2:2 à une fréquence allant jusqu’à 180 images par seconde sur les cartes mémoire internes SxS Pro+. Deux cartes mémoire de 128 Go insérées dans les slots prévus à cet effet allongent la durée d’enregistrement jusqu’à environ 40 minutes à 180 images/s. La demande d’une taille de fichiers suffisamment petite pour utiliser le format 35-50 Mbit/s actuel, même dans le workflow 1080-50p/60p qui va se maintenir. L’utilisation du format Long GOP est la meilleure solution technique à cette demande, car elle permet de réduire la taille du fichier sans affecter la qualité de l’image. Comme illustré dans la figure 6 ci-dessous, le décodage est similaire entre le format Long GOP à 50 Mbit/s et Intra 100 Mbit/s, bien que davantage de calcul soit requis.
Figure 6
Présentation du format de compression HDTV.