White paper sobre XAVC
Documento técnico sobre el nuevo formato de grabación de Sony
Introducción
La tecnología AVC (codificación de vídeo avanzada) según la norma H.264/MPEG-4 Parte 10 se utiliza fundamentalmente en sistemas de distribución de contenidos HDTV tales como los soportes Blu-ray, la televisión digital (terrestre/cable/satélite) y los navegadores web. Los primeros documentos de especificación de la norma datan del año 2003, aunque esta siguió ampliándose hasta 2009 para cubrir mucho más que los estándares de distribución de TV de alta definición. En la actualidad, existe un enorme abanico de niveles operativos que cubre todo tipo de datos de imágenes comprimidas, lo cual abarca desde varios Kilobits por segundo hasta 1,2 Gbps, una velocidad apta para los parámetros más extremos: formatos 4K y 3D, muestreo de 14 bits y frecuencias de más de 100 cuadros por segundo. Sony fue uno de los miembros del grupo JVT (Joint Video Team) que contribuyó a definir la norma y realizó notables esfuerzos para establecer el formato AVCHD y ampliar los niveles y perfiles del códec H.264.
Figura 1
Evolución de la tecnología CMOS.
Figura 2
Evolución de la tecnología de soportes de grabación SxS.
Multimedia | SxS Pro | SxS-1 | SxS Pro + | Serie XQD N | Serie XQD S |
---|---|---|---|---|---|
Año de presentación | 2007 | 2009 | 2013 | 2013 | 2013 |
Velocidad de grabación sostenida | 400 Mbps | 240 Mbps | 1,3 Gbps | - | - |
Velocidad de lectura máxima | 1,2 Gbps | 1,2 Gbps | 1,6 Gbps | 1,0 Gbps | 1,44 Gbps |
Capacidad de almacenamiento | 8 GB/16 GB (2007) 32 GB (2008) 64 GB (2011) | 32 GB (2009) 64 GB (2010) | 64 GB/128 GB | 32 GB/64 GB | 32 GB/64 GB |
La ampliación de la especificación H.264 coincide con el rápido desarrollo de las tecnologías de alta resolución y alta frecuencia de cuadro (sensores, pantallas…), y la tecnología de almacenamiento a alta velocidad. Para poder convertir la ingente cantidad de datos de imagen generados por los sensores modernos en un fichero de tamaño razonable que pueda grabarse en tarjetas de memoria asequibles y montarse/visionarse en sistemas y aplicaciones de edición comerciales, es esencial disponer de una tecnología de compresión eficiente y de alto rendimiento como es el caso del formato H.264. La figura 1 ilustra los avances realizados en el campo de los sensores CMOS, en el que Sony ha desarrollado y comercializado un sensor de imagen con una velocidad de transferencia de datos que supera los 30 Gbps. Es de esperar que, en los próximos años, se produzca una progresiva adopción de herramientas de producción con alta resolución, altas frecuencias de cuadro y alta velocidad de bits. La figura 2 muestra la evolución de la tecnología de tarjetas de memoria SxS y XQD. Se puede observar que las últimas tarjetas brindan una velocidad de grabación en tiempo real que supera 1 Gbps y que su capacidad de grabación se ha incrementado considerablemente con el paso de los años. Y no solo se mantiene su pequeño formato, sino que se ha reducido aún más su tamaño. En este documento se detallan las características y ventajas del formato XAVC. También se explica cómo encaja XAVC en los flujos de producción actuales en combinación con formatos de compresión bien establecidos como MPEG2, MPEG4 SStP y los distintos ficheros RAW de las cámaras. Sony ha desarrollado y comercializado un sensor de imagen con una velocidad de transferencia de datos que supera los 30 Gbps. Es de esperar que, en los próximos años, se produzca una progresiva adopción de herramientas de producción con alta resolución, altas frecuencias de cuadro y alta velocidad de bits. La figura 2 muestra la evolución de la tecnología de tarjetas de memoria SxS y XQD. Se puede observar que las últimas tarjetas brindan una velocidad de grabación en tiempo real que supera 1 Gbps y que su capacidad de grabación se ha incrementado considerablemente con el paso de los años. Y no solo se mantiene su pequeño formato, sino que se ha reducido aún más su tamaño. En este documento se detallan las características y ventajas del formato XAVC. También se explica cómo encaja XAVC en los flujos de producción actuales en combinación con formatos de compresión bien establecidos como MPEG2, MPEG4 SStP y los distintos ficheros RAW de las cámaras.
El formato XAVC
El formato XAVC de Sony cumple la norma H.264 nivel 5.2, por la cual la información de vídeo se encapsula en un paquete MXF OP-1a estándar acompañada de la información de audio y los metadatos. El principal objetivo por el que se creó XAVC era desarrollar una familia de herramientas de producción profesional capaces de manejar imágenes HD con alta frecuencia de cuadro (HFR) y 4K de forma económica. La figura 3 resume las características del formato XAVC. Hay que tener presente que la tabla contiene el alcance global de la especificación y que los productos reales pueden implementar solo una parte de los formatos y opciones disponibles. Por otra parte, el cuadro no incluye velocidades de grabación no estándar (cámara lenta/rápida) que pueden ofrecer ciertos productos. Además, se ha presentado el formato de empaquetado MP4 bajo la denominación XAVC S, destinado a los consumidores finales. Esta extensión fomentará el desarrollo del contenido 4K en el mercado destinado a los consumidores finales.
XAVC y 4K
En la actualidad, el uso de sistemas de captación de imágenes digitales en movimiento en formato 4K se limita al cine digital, donde el estándar de proyección definido por la DCI (Digital Cinema Initiatives) para las salas es de 4096 x 2160 a 24 fps con ficheros JPEG2000 comprimidos en paquetes MXF. Como la historia se repite, muchos fabricantes de electrónica han empezado a comercializar pantallas planas y sistemas de proyección de uso doméstico con formato 4K. Aunque seguramente faltan unos años para que la televisión digital terrestre llegue a los hogares en 4K, varios operadores de TV por cable, satélite y red ven en este formato nuevas oportunidades de negocio. Los contenidos actuales para TV de alta definición pueden aprovechar las pantallas 4K, ya que el proceso interno de conversión a una resolución superior ayuda a reducir los artefactos de la estructura de píxeles y líneas en pantallas grandes y, al mismo tiempo, permite transmitir varias señales de HDTV de forma simultánea a máxima resolución. En el presente, la mayoría de las cámaras de fotos digitales, incluso las que se instalan en los teléfonos móviles, ofrecen una resolución nativa superior a la de la HDTV. Un televisor 4K puede servir como marco perfecto para ver fotos digitales con una calidad impecable en casa.
Figura 3
Información general sobre el formato XAVC.
Rango | Resolución | Frecuencia de cuadro | Color | Velocidad de bits máxima | Intra/Long |
---|---|---|---|---|---|
4K | 4096x2160 3840x2160 | 23.98p a 59.94p | 4:2:0/8 bits a 4:4:4/12 bits | 960 Mbps | Intra Long |
HD | 2048x1080 1920x1080 1440x1080 1280x720 | 23.98p a 59.94p 50i/59.94i | 4:2:0/8 bits a 4:4:4/12 bits | 440 Mbps | Intra Long |
Proxy | 23,98p a 59.94p | 4:2:0/8 bits | 28 Mbps | Long |
Debido al amplio abanico de posibilidades operativas que ofrece el formato XAVC, el ancho de banda de la captación de imágenes en 4K puede reducirse a menos de 100 Mbps en función de la estructura del grupo de imágenes, la frecuencia de cuadro y el muestreo de color. Con semejante variedad de códecs y modos de funcionamiento, es de esperar que aumente la adopción de este formato en el ámbito doméstico y se aplique a determinados entornos B2B en los que es importante poder ofrecer imágenes en alta resolución. El número total de píxeles activos en la mayoría de las pantallas 4K de consumo se limitará a 3840 x 2160, el cuádruple de 1920 x 1080 (Quad HD o QFHD), mientras que el estándar de proyección en cines alcanza los 4096 píxeles en el plano de imagen. El formato XAVC cubre ambos formatos de muestreo horizontal (4096 y 3840), con lo que puede utilizarse en producciones de cine y televisión. La cámara PMW-F55 de Sony graba ficheros XAVC 4K con codificación intracuadro a velocidades situadas entre los 240 Mbps (a 24P) y los 600 Mbps (a 60P) en el interior de la cámara. El servidor PWS-4400 es compatible con estos puntos operativos, además de resultar adecuado para la plataforma de producción en directo 4K. La velocidad de bit para 4K fue el mayor aspecto a debatir durante el desarrollo. 100 Mbps para 1080i se considera una velocidad de bit razonable, ya que se ha utilizado ampliamente en el sector del broadcast. Teóricamente, para alcanzar la velocidad de bit necesaria para 4K 60p, con una resolución cuatro veces mayor y el doble de la frecuencia de cuadro, sería necesario multiplicar por ocho los datos. Esto se reduce a 800 Mbps, sin embargo, el 25 % de los datos puede disminuir de acuerdo con la eficacia de codificación para una frecuencia de cuadro progresiva en comparación con el entrelazado. Para poder almacenar semejante caudal de datos con seguridad en un soporte fiable, económico y a la vez compacto, Sony ha desarrollado la familia de tarjetas de memoria SxS Pro+. Estas tarjetas son compatibles con todos los dispositivos que dispongan de ranura para tarjetas SxS y alcanzan una velocidad de grabación sostenida de hasta 1,3 Gbps. En una sola tarjeta de memoria SxS Pro+ de 128 GB, la PMW-F55 puede grabar hasta 50 minutos de material en formato 4K/24P o unos 20 minutos en formato 4K/60P.
Flujo de trabajo con XAVC, RAW y ACES
El mercado de la producción de cine digital está en proceso de definir un conjunto de parámetros de imagen estándar que se aplique a imágenes creadas con película, cámaras digitales y ordenadores. Cabe esperar que el sistema ACES (Academy Color Encoding System) proporcione unas normas comunes para procesar imágenes procedentes de distintas fuentes, ofrezca máxima flexibilidad para el tratamiento de las imágenes (corrección del color), y estas aparezcan de forma más homogénea a través de las distintas herramientas de producción y los distintos proveedores de servicios. Sony participa activamente en la iniciativa ACES y ha creado diversos IDT (Input Device Transforms) para adaptar las cámaras de gama alta a los flujos de trabajo basados en este sistema de codificación. La profundidad de 16 bits (coma flotante de precisión media) de los ficheros ACES saca el mayor partido posible a las imágenes generadas por ordenador o captadas con cámaras de gama alta, y brinda máxima flexibilidad en el etalonaje digital y las aplicaciones de intermedio digital (DI). Esta es la razón por la que cámaras recientes de Sony (F65 + SR-R4, PMW-F55 + AXS-R5, PMW-F5 + AXS-R5) ofrecen la posibilidad de grabar ficheros RAW de 16 bits lineales a través de pequeños grabadores internos.
Figura 4
Comparación de los tamaños de fichero de imagen.
Aunque las cámaras PMW-F5/F55 pueden grabar ficheros RAW a través del grabador AXS-R5 integrado, las tarjetas SxS introducidas en las ranuras pueden grabar simultáneamente ficheros XAVC a resolución HD, que se sincronizan perfectamente con los ficheros RAW en lo que se refiere a las marcas de grabación, el audio, los códigos de tiempo y otros metadatos tales como los nombres de ficheros. Los ficheros XAVC complementan a los ficheros RAW como ficheros de edición, ya que permiten iniciar el proceso de montaje nada más extraer las tarjetas SxS de las cámaras. Para poder etalonar y editar las imágenes procedentes de ficheros RAW de las cámaras, es preciso realizar un proceso más en la imagen: aplicar un filtro de interpolación del color para eliminar el efecto de mosaico típico de la captación en formato RAW. Aunque los ficheros RAW de las cámaras ofrecen la máxima libertad creativa, algo fundamental en determinados trabajos de posproducción, pueden resultar caros en términos de tiempo y dinero. Los ficheros XAVC 4K pueden considerarse como una alternativa económica al formato RAW. Como puede verse en la figura 5, el tamaño de los ficheros XAVC 4K es similar a los de resolución HD utilizados en la actualidad. Esto hace prever que el formato XAVC 4K se convertirá en un elemento clave para impulsar la producción en 4K.
XAVC y HDTV
A menudo se dice que los últimos algoritmos de compresión desarrollados son más eficientes que sus predecesores. Aunque esto es cierto en el sentido de que permiten conseguir una cierta calidad de imagen con menos cantidad de datos de imagen (o tasa de bits), la mayor complejidad de los modelos de codificación modernos exige más capacidad informática, lo que puede representar un problema a la hora de hacer migrar la infraestructura de producción, y su correspondiente flujo de trabajo, de una generación a otra. La potencia de procesamiento necesaria para descodificar un determinado flujo de bits comprimidos se convierte en un factor extremadamente importante cuando se utilizan múltiples ficheros simultáneamente en una sesión de edición.
Figura 5
Comparación de las velocidades de descodificación del software.
En la actualidad, la mayor parte de la industria del broadcast utiliza el formato MPEG2 HD Long GOP (a 50 Mbps o 35 Mbps) para la producción de contenidos HDTV debido al pequeño tamaño de los ficheros, su alta calidad de imagen y sus escasos requisitos informáticos. Desde informativos a programas de telerrealidad y grandes eventos deportivos, las tasas de bits situadas entre 35 y 50 Mbps son las perfectas para manejar una infraestructura HDTV basada en ficheros. La figura 6 muestra cómo pueden descodificarse diferentes señales de vídeo en una determinada plataforma informática sin recurrir a procesadores gráficos u otros aceleradores de hardware. El eje horizontal representa los cuadros por segundo y resulta evidente que MPEG2 a 50 Mbps es el formato más rápido (o más eficiente) de todos los comparados. Diferentes medios de difusión audiovisual están empezando a mostrar interés en adoptar el H.264 como principal formato de uso interno por las siguientes razones.
- La necesidad de consolidar todos los ficheros de la programación, desde los programas de máxima audiencia hasta los informativos, en un mismo códec contenido en un paquete común y estándar.
- El uso de muestreo de 10 bits en lugar de los 8 bits de MPEG-2.
- La convicción de que MPEG-2 de 50 Mbps no proporciona la calidad de imagen necesaria para sustituir formatos de cinta actuales tales como HDCAM.
- El espacio de almacenamiento, el ancho de banda de red y la potencia de procesamiento han dejado de ser un problema para manejar varios flujos de datos con velocidades de bits altas.
Para las operaciones de televisión en HD a 50p/60p, el códec XAVC Intra admite hasta 440 Mbps y puede considerarse como un nivel intermedio que cubre el vacío entre los formatos que proporcionan calidad de masterizado (MPEG4 SStP o HDCAM-SR) y el formato MPEG2. Asimismo, XAVC puede desempeñar un papel fundamental para diseñar un camcorder portátil capaz de funcionar con muy altas frecuencias de cuadro y resolución HDTV. La PMW-F55 graba imágenes 4:2:2 de 10 bits con 1920 x 1080 de resolución a un máximo de 180 cuadros por segundo en las tarjetas SxS Pro+ internas. Si se utilizan las dos ranuras de la cámara con sendas tarjetas de 128 GB, se puede prolongar el tiempo de grabación ininterrumpida hasta aproximadamente 40 minutos a 180fps. Seguirá activa la demanda de mantener un tamaño de fichero lo suficientemente pequeño para que pase por los 35-50 Mbps actuales, incluso en el flujo de trabajo de 1080-50p/ 60p. Utilizar Long GOP es la técnica preferible para esta demanda, ya que hace que el tamaño del fichero sea menor sin que ello afecte a la calidad de la imagen. Como puede verse en la figura 6 anterior, el rendimiento de decodificación es casi equivalente entre Long GOP de 50 Mbps e Intra de 100 Mbps, aunque es necesario realizar más cálculos.
Figura 6
Resumen de los formatos de compresión para HDTV.