La norme 4:2:2
1 - INTRODUCTION
L’histoire du numérique dans la vidéo commence véritablement de 1972 à 1982. A l’origine équipements de synchronisation, les appareils se sophistiquèrent avant d’entrer dans le milieu professionnel. Dès lors, les industriels prirent conscience de l’avènement de ce nouveau phénomène et présentèrent des normes en matière de numérisation. Une certaine anarchie numérique régna alors sur le marché ce qui força la main au C.C.I.R. (Comité Consultatif International de Radiodiffusion) à normaliser un format vidéo en composantes numériques compatible dans le monde entier : cette norme c'est le 4:2:2, ou CCIR 601. Elle spécifie les paramètres de codage de signaux à numériser (échantillonnage, quantification, …) Dès lors les innovations ne cessèrent de s’enchaîner pour permettre aujourd'hui, à la vidéo numérique, de se généraliser dans les centres de production, chaînes TV et régie de post-production pour assister le montage.
2 - L’ACQUISITION VIDEO : LA CONVERSION ANALOGIQUE / NUMERIQUELe procédé de l’acquisition vidéo analogique et de sa conversion en numérique peut s’assimiler au passage du langage oral au langage écrit. Pour prendre en note le discours oral d’une personne, cette dernière ne doit pas parler trop rapidement, dans tel cas il devient difficile d’écouter et de transcrire simultanément. Certes la personne pourrait ralentir son débit de parole mais si l’on assimile ces parole avec le signal vidéo analogique, on comprend aisément que le débit ne peut pas être ralentit. On procède donc à l’échantillonnage du discours, c'est à dire que l’on ne saisit que des " morceaux " de message pour les retranscrire par la suite. La précision de la retranscription dépend donc directement du nombre d’échantillons de discours prélevés.
Pour la vidéo, le phénomène est identique : il est nécessaire avant toute chose de connaître le signal et de savoir quels sont les signaux à numériser.
2.1 - POURQUOI UN CODAGE DES COMPOSANTES ?
Le signal vidéo numérique devait, sans aucun doute, être identique pour tous les pays : l’idée était de numériser des données communes aux systèmes 625 lignes (PAL, SECAM) et 525 lignes (NTSC). Le C.C.I.R. a donc unanimement décidé de numériser de façon séparée les signaux de luminance (Y) et de chrominance (Cr ; Cb). Un système basé sur le codage numérique des composantes vidéo exclue tous les problèmes qu’auraient pu engendrer un codage de signal vidéo composite et permet une compatibilité à échelle mondiale. Ce système devrait donc apparaître comme étant l’accessoire principal d’un développement de nouveaux équipements, mais aussi et surtout d’un échange international de données, constituant la base de l’audiovisuel : la communication.
2.2 - L'ECHANTILLONNAGE
L’échantillonnage d’un signal, c'est le découpage en tranches temporelles de ce dernier. Il est directement suivi de la quantification qui consiste à prélever ponctuellement la valeur du signal à des instants réguliers, correspondant à la période de l’échantillonnage. Il est donc nécessaire que le rythme de découpage (fréquence d’échantillonnage) soit élevé pour pouvoir retranscrire la variation du signal d’origine la plus brève. Car si l’intervalle de temps entre deux échantillons consécutifs est supérieur au temps de la variation la plus rapide du signal d’origine, cette dernière se trouvera perdue et ne sera pas prise en compte dans le signal numérique.
Par conséquent, pour échantillonner un signal en préservant intègrement son information, il est nécessaire de connaître la fréquence la plus élevée à laquelle il est susceptible de varier. La loi mathématique de Shannon et Nyquist établi qu’ "Un signal dont le spectre est limité à la fréquence Fmax est entièrement défini par la suite de ses échantillons prélevés à des intervalles de temps réguliers de valeur T= ½ Fmax".
Par conséquent, la fréquence d’échantillonnage doit être Fe > ou = 2Fmax pour être la représentation d’origine. Si cette condition n’est pas respectée, les composantes spectrales répétitives du signal échantillonné ne sont pas assez espacées et se chevauchent. La zone de repliement, appelé zone d’aliasing, donne naissance à une fréquence parasite se traduisant par un effet de moiré sur l’image. Pour palier à ce problème, un filtre passe-bas (filtre anti-aliasing) est disposé en amont de la conversion. Ce filtre à pente raide rejette toutes les fréquences du signal analogique d’entrée qui sont supérieures à ½ Fe.
Le signal vidéo de luminance possède une bande passante d’environ 6 Mhz. Pour être justement numérisée, la fréquence d’échantillonnage de ce signal doit respecter les critères de Shanon et Nyquist soit :
Cependant, pour être utilisée au niveau mondial, Fe(Y) doit être multiple commun des fréquences lignes des systèmes à 525 et 625 lignes à savoir 15625 et 15734,2 Hz. Le C.C.I.R. a donc retenu la fréquence d’échantillonnage suivante : Fe(Y) = 13.5 Mhz. Cette fréquence est égale à 864 fois la fréquence ligne des systèmes à 625 lignes et 858 fois celle des systèmes à 525 lignes (Une ligne active contenant 720 échantillons).
Pour les signaux de chrominance, la bande passante est d’environ 3 Mhz. Le C.C.I.R. a décidé de les échantillonner à une fréquence deux fois moindre de celle pour la luminance soit Fe(Cr) = Fe(Cb) = 6.75 Mhz. Pour ces signaux, il n’y aura donc que 360 échantillons par ligne active. Ceci n’est pas réellement gênant pour l’être humain qui est moins sensible à la couleur qu’à l’éclairement.
Ces fréquences d’échantillonnage déterminées par le C.C.I.R. s’apparentent aux chiffres 4, 2 et 2. Le chiffre 4 représentant la fréquence d’échantillonnage de la luminance (13.5 Mhz) et 2 les fréquences d’échantillonnage des signaux de chrominance (6.75 Mhz = 13.5/2). C’est ainsi que la norme CCIR 601, née de ces études, pris le nom courant de norme 4:2:2.
La périodicité 2 trames permet trois types de structures d’échantillonnage : orthogonale, quinconce ligne et quinconce trame. C’est la structure orthogonale qui retenu l’attention dans la norme 4:2:2. Dans cette structure, la phase de l’horloge d’échantillonnage est identique pour chaque ligne et chaque trame. Les échantillons sont donc situés aux mêmes emplacements d’une ligne à l’autre et d’une trame à l’autre.
2.3 - LA QUANTIFICATION
Après échantillonnage, chaque échantillon est "pesé", tout comme un aliment, afin d’en déterminer son poids. En numérique, ce pesage est appelé quantification. Il s’effectue, pour reprendre notre analogie, à l'aide d'une balance à deux plateaux : Dans un des plateaux se trouve l’échantillon à peser, dans l’autre les poids nécessaires pour trouver l’équilibre. La précision du pesage dépend donc de la valeur du plus petit poids disponible. En vidéo, le poids de l’échantillon est la tension du signal à numériser et la balance un quantificateur. Cet appareil convertit les tensions en valeurs numériques, exploitable par une station de montage virtuelle, par exemple.
Cependant, la quantification ne peut pas représenter parfaitement la tension de l'échantillon du signal analogique d'origine. En effet, un signal analogique peut prendre une infinité de valeurs or il va être converti en un signal formé d'un nombre fini de valeurs numériques "N" dont chacune est codée sur "n" bits. Il y aura donc nécessairement, après quantification, une erreur d'arrondi. La précision du signal converti sera donc liée au nombre de valeurs disponibles pour traduire chaque échantillon. L'intervalle situé entre deux valeurs est notée "q" et se nomme " pas de quantification ". A chaque instant "t", l'amplitude du signal se trouvant à l'intérieur d'un échelon est remplacé par la valeur de l'échelon le plus proche. On comprend aisément que plus les pas de quantification sont petits, plus il sont nombreux sur une plage donnée et donc que plus la précision du signal quantifié est importante (Le taux d'erreur de quantification étant déterminé par la relation Terr = 1/2n).
La quantification du signal vidéo est uniforme, linéaire et s'effectue de façon séparée sur Cr et Cb. Initialement fixé sur 8 bits, la quantification du signal vidéo de la norme 4:2:2 a été passée à 10 bits. En effet, une quantification sur 8 bits permet de disposer de 28 = 256 niveaux numériques (dont 220 utiles pour représenter les niveaux de gris) ce qui n'est parfois pas suffisant. Pour un dégradé de gris du blanc au noir, par exemple, un " effet d'escalier " apparaît après numérisation. De plus, le rapport S/B d'une quantification sur 8 bits est de 56 dB alors que les caméras d'aujourd'hui atteignent les 60 dB. Le C.C.I.R. a donc choisi de quantifier le signal vidéo sur 10 bits, ce qui autorise une échelle de 210 valeurs c'est à dire 1024 niveaux (dont 880 utiles) soit 4 fois plus qu'une quantification sur 8 bits avec pour rapport S/B = 68 dB.
Le signal de luminance est toujours positif et ne pose pas de problèmes à numériser, en revanche les signaux de chrominance sont bipolaires. On a donc du fixer une valeur pour le signal nul : les valeurs au dessus correspondant à un signal positif et celles au dessous à un signal négatif. Cette " valeur zéro " a été fixée par le C.C.I.R. à 512.
2.4 - LE CODAGE DE CANAL
Une fois échantillonné et quantifié, le signal vidéo doit être coder afin d'optimiser son stockage ou sa transmission. Différentes formes de codage existent et présentent chacune leurs avantages et inconvénients. Le but de la manœuvre est donc de choisir le code le plus adapté à l'utilisation. Pour cela, plusieurs codes sont à disposition :
* Le code NRZ (Non Retour à Zéro) : Dans ce codage, une donnée binaire " 1 " engendre un niveau haut de signal et une donnée " 0 " un niveau bas.
* Le code NRZI (Non Retour à Zéro Inversé) : Dans ce codage, une donnée binaire " 1 " engendre une transition au milieu de la demi-période d'horloge, une donnée " 0 " n'a aucun effet. Ce type de codage est utilisé en vidéo dans les liaisons série 4:2:2 car il permet de transmettre avec le signal vidéo, son signal d'horloge.
* Le code Biphase Mark : Ce codage est utilisé pour le signal de LTC des magnétoscopes. Un " 0 " provoque une transition et un maintien du niveau pendant toute la période d'horloge, alors qu'un " 1 " entraîne une transition et un changement de niveau à la moitié de la demi-période d'horloge.
Il existe encore, d'autres codes (comme le code Miller ou le code Miller carré) qui ne sont utilisés que dans certains magnétoscopes numériques.
2.5 - LA STRUCTURE DE LA LIGNE NUMERIQUE
Les lignes analogiques des systèmes à 625 et 525 lignes sont de durées légèrement différentes. Ainsi, la capacité d’une ligne active doit être suffisante pour contenir un nombre suffisant d’échantillons afin de couvrir les lignes des deux systèmes. Le C.C.I.R. a choisi 720 échantillons pour le signal de luminance et 360 pour les signaux de chrominance. Ceci est suffisant car les lignes actives analogiques les plus longues sont celles des systèmes à 525 lignes qui nécessitent plus de 710 échantillons pour être totalement analysées. La ligne active 4:2:2 est donc codée sur 1440 mots (720 x 2). Les signaux permettant de positionner la ligne active numérique sont codés respectivement sur 264 et 24 mots pour les systèmes à 625 lignes et sur 244 et 32 pour les systèmes à 525 lignes. Le front avant des impulsions de synchronisation ligne (SAV) détermine l’arrivée du premier échantillon et la référence de temps pour la conversion analogique-numérique. Le front arrière (EAV) en détermine la fin.
2.6 - REMARQUES SUR LA DETECTION ET LA CORRECTION D'ERREURS
Le support d’enregistrement (ou le canal de transmission) peut engendrer des erreurs dans le flux de données numériques. C'est à dire qu’une valeur binaire peut prendre une autre valeur (un "0" devient "1" et vice-versa) ou bien qu’une info peut manquer à un moment donné. Cette erreur peut soit affecter l’image vidéo visible soit les autres signaux vidéo selon les bits qu’elle affecte. Elle peut donc avoir des conséquences plus ou moins importantes d’où l’utilité de les détecter et de les corriger.
La difficulté des systèmes de correction d’erreur réside dans le fait qu’il faut avant tout détecter l’erreur avant de pouvoir la corriger. Pour cela, des données redondantes sont ajoutées lors du codage aux données utiles, selon une loi définie et connue du codeur et du décodeur. A chaque fois que cette loi n’est pas vérifiée au décodage, un processus de correction est déclenché. Si le manque d’information est tel que même le données redondantes ne suffisent pas à retrouver le signal d’origine, des processus de compensation, qui consistent à calculer la valeur moyenne entre échantillons proches, sont exécutes. Le signal ainsi corrigé peut enfin être utilisé par les différents équipements numériques.
Publié avec l'autorisation de l'auteur : Arnaud AUGST.
Traduction, adaptation, correction et traitement des graphiques : Stef