Informe técnico sobre XAVC
Documento técnico sobre el nuevo formato de grabación de Sony
Introducción
La tecnología AVC (codificación de video avanzada) según el estándar H.264/MPEG-4 Parte 10 se utiliza fundamentalmente en sistemas de distribución HDTV tales como Blu-ray, transmisión digital (terrestre/cable/satélite) y navegadores web. Los primeros documentos de estandarización datan del año 2003 y, a lo largo de los años hasta 2009 se han expandido hasta alcanzar mucho más que estándares de distribución HDTV. En la actualidad, la familia de niveles operativos cubre un rango extremadamente amplio de datos de imágenes comprimidos, comenzando por varios kilobits por segundo hasta 1,2 Gbps, cuyos parámetros extremos incluyen muestreos de 4K, 3D, 14 bits, y más de 100 cuadros por segundo. Sony fue uno de los miembros activos del JVT (Joint Video Team) que completó el estándar, y se ha esforzado mucho para establecer el formato AVCHD y expandir los niveles/perfiles del estándar H.264.
Figura 1
Progreso en el desarrollo de la tecnología CMOS.
Figura 2
Evolución de la tecnología de soportes de grabación SxS.
Soportes | SxS Pro | SxS-1 | SxS Pro + | XQD serie N | XQD serie S |
---|---|---|---|---|---|
Año de introducción | 2007 | 2009 | 2013 | 2013 | 2013 |
Tasa sostenida de datos al grabar | 400 Mbps | 240 Mbps | 1,3 Gbps | - | - |
Máx. velocidad de lectura | 1,2 Gbps | 1,2 Gbps | 1,6 Gbps | 1,0 Gbps | 1,44 Gbps |
Capacidad de almacenamiento | 8 GB/16 GB (2007) 32 GB (2008) 64 GB (2011) | 32 GB (2009) 64 GB (2010) | 64 GB / 128 GB | 32 GB / 64 GB | 32 GB / 64 GB |
La ampliación del estándar H.264 coincide con el rápido desarrollo de las tecnologías de alta resolución y alta frecuencia de cuadros (sensores, pantallas) y la tecnología de almacenamiento a alta velocidad. Una tecnología de compresión de alto rendimiento y eficiente como el estándar H.264 tiene un rol esencial en la codificación de grandes cantidades de datos de imágenes generados por los sensores modernos en archivos de tamaño modesto, para que dichas imágenes puedan grabarse en tarjetas de memoria asequibles, y puedan editarse/visualizarse en paquetes de software de edición/computadoras disponibles actualmente. La figura 1 ilustra los avances realizados en el campo de los sensores CMOS, en el que Sony ha desarrollado y comercializado un sensor de imagen con tasas de transferencia de datos que superan los 30 Gbps. Se espera que en los próximos años las herramientas de imágenes de alta resolución, alta frecuencia de cuadros y alta velocidad de bits sean más comunes. La figura 2 muestra la evolución de la tecnología de tarjetas de memoria SxS y XQD. Se puede observar que las últimas tarjetas brindan una velocidad de grabación en tiempo real superior a 1 Gbps y que su capacidad de grabación se ha incrementado considerablemente con el paso de los años. Y no solo se mantiene su pequeño formato, sino que se ha reducido aún más su tamaño. En este documento se detallan las características y ventajas del formato XAVC. También se explica cómo encaja XAVC en los flujos de producción actuales, en combinación con formatos de compresión bien establecidos como MPEG2, MPEG4 SStP y los distintos archivos RAW de las cámaras. Sony ha desarrollado y comercializado un sensor de imagen con velocidades de transferencia de datos que superan los 30 Gbps. Se espera que en los próximos años las herramientas de imágenes de alta resolución, alta frecuencia de cuadros y alta velocidad de bits sean más comunes. La figura 2 muestra la evolución de la tecnología de tarjetas de memoria SxS y XQD. Se puede observar que las últimas tarjetas brindan una velocidad de grabación en tiempo real superior a 1 Gbps y que su capacidad de grabación se ha incrementado considerablemente con el paso de los años. Y no solo se mantiene su pequeño formato, sino que se ha reducido aún más su tamaño. En este documento se detallan las características y ventajas del formato XAVC. También se explica cómo encaja XAVC en los flujos de producción actuales, en combinación con formatos de compresión bien establecidos como MPEG2, MPEG4 SStP y los distintos archivos RAW de las cámaras.
El formato XAVC
El formato XAVC de Sony cumple con el estándar H.264 nivel 5.2, por la cual la información de video se encapsula en un contenedor MXF OP-1a estándar acompañada de la información de audio y los metadatos. El principal objetivo de la adopción del formato XAVC es desarrollar una familia de herramientas profesionales de producción que puedan administrar en forma económica formatos de imagen HD y 4K con Alta Frecuencia de Cuadro (HFR). La Figura 3 muestra el alcance del formato XAVC. Tenga en cuenta que esta tabla describe el alcance global del formato XAVC y que la implementación real del producto puede estar limitada a cierta parte de esta tabla. Por otra parte, el cuadro no incluye velocidades de grabación no estándar (cámara lenta/rápida) que pueden ofrecer ciertos productos. Además, se ha presentado el formato contenedor MP4 bajo la denominación XAVC S, destinado a los consumidores finales. Esta expansión impulsará el crecimiento de contenido 4K en el mercado de consumo.
XAVC y 4K
En la actualidad, el uso de sistemas de captura de imágenes digitales en movimiento en formato 4K se limita al cine digital, donde el estándar de proyección definido por el estándar DCI (Digital Cinema Initiatives) para las salas es de 4096 x 2160 a 24 fps con archivos JPEG2000 comprimidos en paquetes MXF. Dado que la historia se repite, muchos fabricantes de pantallas para consumo han comenzado a comercializar paneles planos y sistemas de proyección para entretenimiento hogareño 4K. A pesar de que es posible que la transmisión televisiva terrestre 4K comience en algunos años, varios operadores de cable/servicios satelitales/red y proveedores de contenido consideran al formato 4K como una nueva oportunidad comercial para entrega de contenido. El contenido HDTV actual se puede beneficiar de las pantallas 4K, ya que el proceso de conversión ascendente interno puede ayudar a reducir los efectos de la estructura de líneas y píxeles de las grandes pantallas o para poder mostrar en forma simultánea múltiples flujos HDTV con resolución completa. Hoy en día, la mayoría de las cámaras fotográficas digitales, incluso las de los teléfonos celulares, incorporan resolución nativa superior a HDTV. Un televisor 4K hogareño puede servir como marco perfecto para ver fotos digitales con impecable calidad.
Figura 3
Generalidades sobre el formato XAVC.
Rango | Resolución | Frecuencia de cuadros | Color | Máx. tasa de bits | Intra / Long |
---|---|---|---|---|---|
4K | 4096x2160 3840x2160 | 23.98p a 59.94p | 4:2:0/8 bits a 4:4:4/12 bits | 960 Mbps | Intra Long |
HD | 2048x1080 1920x1080 1440x1080 1280x720 | 23.98p a 59.94p 50i/59.94i | 4:2:0/8 bits a 4:4:4/12 bits | 440 Mbps | Intra Long |
Proxy | 23.98p a 59.94p | 4:2:0/8 bits | 28 Mbps | Long |
Debido al amplio abanico de posibilidades operativas que ofrece el formato XAVC, el ancho de banda para la captura de imágenes en 4K puede reducirse a menos de 100 Mbps en función de cuál sea la estructura GOP, la frecuencia de cuadros y el muestreo de color. Se espera que dicha selección eficiente de puntos de operación mejore significativamente la experiencia de entretenimiento doméstico y sea implementada en ciertas aplicaciones B2B, donde la alta resolución de imagen es de interés primordial. La cantidad de píxeles activos de la mayoría de las pantallas 4K domésticas estará limitada a 3840 x 2160, el cuádruple de 1920×1080. (Quad HD o QFHD), que difiere del estándar de proyección de Cine que presenta 4096 píxeles en todo el plano de la imagen. El formato XAVC cubre ambos formatos de muestreo horizontal, 4096 y 3840, por lo que las herramientas de producción XAVC pueden utilizarse tanto en aplicaciones de cine como de televisión. La nueva cámara PMW-F55 de Sony graba cuadros 4K XAVC 4K INTRA en puntos operativos entre 240 Mbps (a 24P) y 600 Mbps (a 60P) en el interior de la cámara. El servidor PWS-4400 también es compatible con estos puntos operativos para poder adaptarlo a plataformas de producción 4K en vivo. La tasa de bits para 4K fue el principal punto de discusión durante el desarrollo. 100 Mbps para 1080i se considera una tasa de bits razonable, ya que se la ha utilizado mucho en la industria de broadcast. Teóricamente, para satisfacer la tasa de bits requerida para 4K 60p, el cuádruple de resolución y el doble de tasa de bits requeriría 8 veces más datos. Esto asciende a 800 Mbps. Sin embargo, puede reducirse un 25% de los datos gracias a la eficacia de codificación para cuadros progresivos en comparación con el entrelazado. Para poder grabar en forma segura una tasa de datos tan alta con un medio eficiente en cuanto a costos y compacto, Sony desarrolló la familia de tarjetas de memoria SxS Pro+. Las tarjetas de memoria SxS Pro+ son compatibles con todos los dispositivos que tienen ranura para tarjetas SxS, y logran una tasa de grabación de datos sostenida de hasta 1,3 Gbps. En una única tarjeta de memoria SxS Pro+ de 128 GB, la cámara PMW-F55 graba hasta 50 minutos en formato 4K/24P o aprox. 20 minutos en formato 4K/60P.
XAVC , RAW y flujo de trabajo ACES
La comunidad de producción cinematográfica digital está en camino hacia la estandarización de un conjunto común de parámetros de imagen que incluye imágenes creadas en películas, cámaras digitales y aquellas generadas por computadoras. Se espera que el Sistema de Codificación de Color de la Academia (ACES – Academy Color Encoding System) establezca un campo de reproducción común para imágenes de diferentes orígenes, ofrezca un espacio máximo para la manipulación de imágenes (gradación de colores), y logre una apariencia consistente entre diferentes conjuntos de herramientas y proveedores de servicios. Sony es un participante activo en la iniciativa ACES, y ha creado varios IDT (Input Device Transforms) para que las cámaras de alta gama se adapten al flujo de trabajo ACES. La profundidad de color de 16 bits en coma flotante de los archivos ACES logra los mejores resultados a partir de imágenes de cámaras de alta gama y elementos CGI, y ofrece máxima flexibilidad para la gradación de color en el paquete DI (Intermediario Digital). Es por ello que las cámaras más recientes de Sony (F65+SR-R4, PMW-F55+AXS-R5, PMW-F5+AXS-R5) tienen capacidad para grabar archivos RAW lineales de 16 bits a través de grabadoras integradas compactas.
Figura 4
Comparación de tamaños de archivo de imagen.
Si bien las cámaras PMW-F5/F55 pueden grabar archivos RAW a través del grabador AXS-R5 integrado, las tarjetas SxS introducidas en las ranuras pueden grabar simultáneamente archivos XAVC a resolución HD, que se sincronizan perfectamente con los archivos RAW en lo que se refiere a las marcas de grabación, el audio, los códigos de tiempo y otros metadatos tales como los nombres de archivos. Los archivos XAVC complementan a los archivos RAW como archivos editoriales, lo cual permite comenzar inmediatamente con el proceso de edición al quitar las tarjetas SxS de las cámaras. Para realizar gradaciones de color y editar imágenes derivadas de archivos RAW de cámara, se requiere un paso extra de procesamiento de imagen (en general denominado De-Bayering o De-mosaicking). A pesar de que los archivos RAW de cámara ofrecen la máxima libertad creativa, algo imprescindible para poder realizar trabajos de postproducción sofisticados, es posible que surjan restricciones de tiempo/presupuesto. Los archivos 4K XAVC pueden considerarse como una alternativa eficiente en función de costos respecto de los archivos RAW de cámara. Tal como se muestra en la Figura 5, el tamaño del archivo 4K XAVC es similar al de los archivos de resolución HD utilizados actualmente. Se espera que los archivos 4K XAVC sean uno de los principales impulsores para la expansión de la producción 4K.
XAVC y HDTV
Generalmente se dice que los algoritmos de compresión nuevos son más eficientes que sus antecesores. A pesar de que esto es cierto en el sentido de que se puede lograr una determinada calidad de imagen con una menor cantidad de datos de imagen (o tasa de bits), la mayor complejidad de los esquemas de codificación modernos exigen mayor poder informático, lo cual podría representar un importante desafío para migrar la infraestructura de producción y el flujo de trabajo asociado de una generación a la otra. La capacidad de procesamiento necesaria para descodificar un determinado flujo de bits comprimidos se convierte en un factor extremadamente importante cuando se utilizan múltiples archivos simultáneamente en una sesión de edición.
Figura 5
Comparación de velocidad de decodificación de software.
En la actualidad, la mayor parte de la industria televisiva y tipo reality show para TV opera en formato MPEG2 HD Long GOP (50 Mbps o 35 Mbps) para producción HDTV debido al tamaño pequeño de los archivos, la alta calidad de imagen y los costos económicos en cuanto a requerimientos informáticos. Tanto para noticieros, reality shows e importantes eventos deportivos, el nivel ideal para operar una infraestructura HDTV basada en archivos es contar con una velocidad de datos de 35 a 50 Mbps. La Figura 6 muestra cómo pueden decodificarse diferentes flujos de video comprimidos en una determinada plataforma informática, sin recurrir a ningún acelerador de hardware o GPU. La escala horizontal representa los Cuadros por Segundo, y es obvio que el formato MPEG2 50 Mbps es el más rápido (o el más eficiente) de todos. Recientemente, varias emisoras han comenzado a mostrar interés en la adopción del formato H.264 como su principal formato interno debido a las siguientes razones.
- Consolidar todos los archivos de programas, desde programas de horarios centrales hasta noticieros, en un único códec incluido en un contenedor común estándar de la industria
- El uso de muestreo de 10 bits en lugar de los 8 bits de MPEG-2
- Calidad de imagen MPEG-2 de 50 Mbps percibida como insuficiente para reemplazar los formatos actuales de cintas tales como HDCAM.
- El espacio de almacenamiento, el ancho de banda de red y la capacidad de procesamiento han dejado de ser un problema para manejar varios flujos de datos con altas velocidades de bits.
Para las operaciones de HDTV a 50p/60p, el códec XAVC Intra admite hasta 440 Mbps y puede considerarse como un nivel intermedio que cubre el vacío entre los formatos que brindan calidad de masterización (MPEG4 SStP o HDCAM-SR) y el formato MPEG2. El formato XAVC también tiene un rol esencial para posibilitar la existencia de una videocámara portátil con extrema capacidad de frecuencia de cuadros alta con resolución HDTV. El modelo PMW-F55 graba imágenes con resolución total 1920×1080 de 10 bits 4:2:2 a velocidades de hasta 180 cuadros por segundo en tarjetas de memoria SxS Pro+ internas. Colocando tarjetas de memoria de 128 GB en las dos ranuras, el tiempo de grabación continuo se extiende aproximadamente a 40 minutos a 180 fps. Seguirá activa la demanda de mantener un tamaño de archivo suficientemente pequeño para que pase por los 35-50 Mbps actuales, incluso en el flujo de trabajo de 1080-50p/ 60p. Utilizar Long GOP es la técnica de preferencia para esta necesidad, ya que hace que el tamaño del archivo sea menor sin que ello afecte la calidad de imagen. Como puede verse en la figura 6 que se incluye a continuación, el rendimiento de decodificación es casi equivalente entre Long GOP de 50 Mbps e Intra de 100 Mbps, aunque es necesario realizar más cálculos.
Figura 6
Generalidades sobre el formato de compresión HDTV.