4:2:0 vs. 4:2:2 vs. Raw:A Videographers Guide to Chroma Subsampling

Dedikerade videokameror och till och med hybridkameror erbjuder nu en uppsjö av format för att spela in video, men vad är skillnaden mellan 4:2:0, 4:2:2 och rå, och hur kommer det att påverka dina bilder? Ett grepp om de tekniska detaljerna kan vara till hjälp för att fatta ett välgrundat beslut om vilket format som ska användas.

Mängden av olika inspelningsformat som erbjuds i kamerans videomeny kan ibland kännas överväldigande, men om du inte tar något annat ifrån den här artikeln, här är kärnan i det:beroende på faktorer som upplösning, färgdjup och bildhastighet för din videofilm, kan operationer som kodning och avkodning av din video, redigera dina filmer, eller från att lagra filer, eller från att lagra mycket data, tidskrävande och beräkningskrävande. De ganska kryptiskt namngivna videoformaten som nämns i rubriken på den här artikeln är svaret på detta problem, och erbjuder videofotografer en mängd olika alternativ för att göra avvägningar mellan kvaliteten på deras film och mängden information (eller data) som krävs för att lagra den.

Den stora avvägningen:bildkvalitet kontra datalagring

I allmänhet kommer de högsta kvalitetsvideoformaten att kräva mest data för lagring, medan de lägsta kvalitetsformaten kräver minst. Mängden data som krävs för att lagra dina videofilmer kan få viktiga praktiska konsekvenser. De större datauppsättningarna som genereras av videoformaten av hög kvalitet skapar större filer som kommer med några potentiella nackdelar. Större volymer digitala lagringsmedier krävs för att lagra materialet, och de längre skrivtiderna för dessa högkvalitativa videofiler kan också sätta gränser för din kameras förmåga att fånga inspelningar. Att välja ett videoformat med högre kvalitet kan till exempel tvinga dig att fotografera med en lägre bildhastighet och/eller upplösning för att kamerans datapipeline ska kunna hänga med.

Och problemen slutar inte vid kameran.

När du väl har laddat upp dessa större filer till din dator för redigering är tiden och beräkningsresurserna som krävs för att läsa och bearbeta dessa filer i motsvarande grad större, och din dator kan till och med kämpa för att slutföra dessa uppgifter överhuvudtaget om den saknar det nödvändiga minnet eller beräkningskraften för att hantera bearbetningen av så stora datamängder.

På den positiva sidan kommer videoformat med högre kvalitet att ge dig – ja... högre kvalitet på bilder (uppenbarligen) – men de kan också erbjuda ett enklare arbetsflöde och överlägsna resultat inom redigeringssviten, något vi kommer att diskutera senare.

Ett enkelt exempel på denna typ av avvägning mellan bildkvalitet och filstorlek som alla förstår är bitdjupet. Pixlarna på en digitalkamerasensor kommer att ha ett specificerat bitdjup för kodning av färger vid inspelning av video eller stillbilder. En pixel med ett 8-bitars färgdjup kan spela in 2⁸ eller 256 färger för var och en av de röda, gröna och blå (RGB) kanalerna, för totalt cirka 16,7 miljoner färger. En kamerasensor som erbjuder 12-bitars färgdjup kan däremot spela in cirka 68,3 miljarder färger. Färgåtergivningen av 12-bitarssensorn kommer uppenbarligen att vara mycket överlägsen i de flesta fall jämfört med 8-bitarssensorn, men en 20-megapixelbild som tas med 12-bitarssensorn kommer att kräva 90 megabyte för att lagra färgdata, medan 8-bitarssensorn kräver 60 megabyte (förutsatt att ingen bildkomprimering i båda fallen).

8-bitars färgbilden nedan (med tillstånd av Wikipedia) illustrerar fint den typ av avvägning mellan kvalitet och filstorlek som vi har diskuterat. På himlens blå bakgrund kan du tydligt se ett exempel på fenomenet bandning som kan orsakas av användningen av ett grundare bitdjup för färg.

Synlig banding i en 8-bitars bild (med tillstånd av Steve F, Wikipedia)

Det är ganska lätt att förstå hur valet av bitdjup för din videobild kan påverka avvägningen mellan bildkvalitet och filstorlek, men hur är det med dessa andra, mer mystiskt namngivna videoformat som 4:2:2 och 4:2:0?

Det 90 år gamla färgsystemet som vi fortfarande använder idag

För att förstå dessa videoformat måste vi ta ett steg bortom en värld av enkla RGB-färger och titta på ett annat system för färgkodning som uppstod i slutet av 1930-talet när tv-ingenjörer började tänka på införandet av färgsändningar. På ett sätt som är analogt med det sätt som Microsoft 1985 behövde att deras nya Windows-operativsystem skulle vara bakåtkompatibelt med alla datorer som redan körde deras tidigare Disk Operating System (DOS), insåg tv-ingenjörer att under övergångsperioden när färg-tv fortfarande introducerades, skulle de nya färgsändningarna också behöva vara kompatibla med de svartvita tv-apparater som de flesta fortfarande använde. År 1938 kom en fransk ingenjör, Georges Valensi, på ett genialiskt system för att separera den svartvita delen av bilden från färgkomponenterna. För de nya färgsändningarna skulle de befintliga svartvita TV-apparaterna helt enkelt använda den svartvita komponenten av signalen, medan de nya färg-TV-apparaterna skulle rekonstruera en fullfärgsbild från denna svartvita komponent i kombination med två ytterligare färgkanaler.

Trots sin ålder är Valensis system, kallat YCbCr, fortfarande i bruk idag, och det är i själva verket grunden för våra moderna videokodningsmetoder (inklusive formaten 4:2:2 och 4:2:0 som vi kommer att diskutera här). Istället för att separera en bild i röda, gröna och blå kanaler, separerar YCbCr-systemet bilden i två breda komponenter som kallas luma och chroma. Luma-komponenten (Y:et i YCbCr) är i huvudsak den svartvita delen av bilden, medan chroma-komponenten består av två färgskillnadskanaler - en blå skillnadskanal (Cb) och en röd skillnadskanal (Cr).

Den verkligt geniala aspekten av detta system är att det direkt utnyttjar det sätt på vilket det mänskliga ögat reagerar olika på luminans (ljusa och mörka toner) och färg – och det gör detta på ett mycket smart sätt som gör att vi kan koda korrekta videobilder med mindre information.

Eftersom det mänskliga ögat är mer känsligt för luminans än för färg, är det möjligt att koda färginformation med lägre upplösning och ändå kunna rekonstruera en korrekt bild. I fallet med en TV-sändningssignal motsvarar detta användningen av mindre bandbredd för chroma (färg) komponenterna än för luma (luminans) komponenten. För en digital videobild kan vi utnyttja samma utrymmesbesparande koncept genom att använda en mindre del av vår data för att koda de lägre upplösta chroma-komponenterna.

Men som informationsreklamen går – vänta, det finns mer...

Våra ögon är också mer känsliga för det centrala gröna området i det synliga spektrumet än de är för färgerna närmare de röda eller blåa ändarna av spektrumet, vilket innebär att vi ytterligare kan minska mängden data vi behöver lagra för vår videoram genom att lagra mindre röd och blå färginformation än grön färginformation – och detta är precis vad YCbCr kan göra.

Men vid det här laget kanske du frågar:"Var exakt är informationen om den gröna kanalen? Vi har luma-komponenten (svart och vit) och chroma-kanalerna för de röda och blå färgskillnaderna. Kastar vi bort den gröna kanalen?"

Svaret är nej.

Eftersom våra ögon är mer känsliga för grönt, bevaras den gröna färginformationen inom lumakomponenten med högre upplösning. När den gröna färginformationen behövs för rekonstruktionen av originalbilden i RGB, kan den enkelt extraheras från lumadata.

Bara som en bit - den här ökade känsligheten hos det mänskliga ögat för grönt återspeglas också i layouten av de färgade filtren i Bayer-matrisen (eller X-Trans om du använder Fuji) som troligen sitter framför din digitalkamerasensor och används för att rekonstruera färg från den rena luminansbilden som sensorn ser. Om du tittar på diagrammet nedan kommer du att se att det finns två gröna filter på Bayer-matrisen för varje rött eller blått filter – vilket väger den gröna komponenten i bilden tyngre i enlighet med våra ögons naturliga färgrespons.

Bayer Filter (med tillstånd av Amada44, Wikipedia)

Chroma Subsampling:Ett smart hack för att spara på datalagring

Eftersom våra ögon är mer känsliga för ljusstyrkan i en bild än för dess färger, kan vi offra viss upplösning i färginformationen – särskilt i de blå och röda kanalerna – utan att kompromissa med noggrannheten i vår bild för mycket. Detta tillåter oss att ytterligare minska mängden data som vi behöver för att lagra bilden, med motsvarande fördelar när det gäller att kringgå några av problemen med stora datamängder som vi redan har diskuterat. Ett sätt att uppnå denna minskning av data är att selektivt använda en del av färginformationen från vissa pixlar via en metod som kallas chroma subsampling.

Betrakta denna array med 8 färgpixlar i originalbilden.

Color Pixel Array| © Gordon Webster

Vi kan separera luma- och chroma-komponenterna i denna pixeluppsättning så här.

Separera en bild i luma- och chroma-komponenter | © Gordon Webster

Innan vi går vidare är det viktigt att notera att CbCr-pixlarna visas som en enda pixelkombination av Cb- och Cr-kanalerna, men i YCbCr-systemet skulle var och en av dem faktiskt kodas som två separata Cb- och Cr-pixlar.

Du kommer att märka att det finns två rader med pixlar med fyra pixlar i varje rad, och det är härifrån namnen på chroma-subsamplingsformaten 4:2:0 och 4:2:2 kommer. Den första siffran är bredden på pixelblocket över vilket vi samplar färger – i det här fallet 4. Den andra siffran är antalet pixlar vars färger vi samplar i den första raden. Den tredje siffran är antalet pixlar vars färger vi kommer att sampla i den andra raden.

Nästa bild visar dessa delsamplingsprotokoll tydligare och hjälper oss att förstå detaljerna i varje protokoll.

Chroma Subsampling | © Gordon Webster

I formatet 4:2:0 samplar vi två pixlar i CbCr första raden – pixlar 1 och 3 – och inga pixlar alls från den andra raden. Sedan ställer vi in pixlar 1 och 2 i den första raden till värdet av pixel 1, och pixlar 3 och 4 till värdet av pixel 3. Eftersom vi inte tog några pixlar i den andra raden satte vi helt enkelt värdet på varje pixel i den andra raden till värdet på pixeln ovanför den i den första raden. Att lägga tillbaka lumakanalen ger oss resultatet som vi ser längst ner i diagrammet.

Från diagrammet kan du se att med 4:2:0 subsampling offrar vi hälften av vår färgupplösning vertikalt och hälften horisontellt.

I formatet 4:2:2 samplar vi två pixlar i den första raden – pixlar 1 och 3 – och samma två pixlar från den andra raden. Sedan ställer vi in pixlar 1 och 2 i den första raden till värdet för pixel 1, och pixlar 3 och 4 till värdet för pixel 3 — men den här gången, eftersom vi också samplade två pixlar i den andra raden, kan vi utföra motsvarande operation för pixlarna i den andra raden.

Från diagrammet kan du se att med 4:2:2 subsamplingen offrar vi hälften av vår färgupplösning horisontellt men behåller hela vår ursprungliga vertikala upplösning.

Men hur är det med det där 4:4:4-protokollet i tredje kolumnen?

Du kommer att märka att med 4:4:4 subsampling använder vi alla CbCr-värden i varje rad och därför offrar vi ingen färgupplösning alls. 4:4:4-protokollet är vad vi kallar ett förlustfritt videokodningsformat, och om du inte redan hade gissat det, kallas 4:4:4-subsampling oftare som rå.

Så tillbaka till frågan om bildkvalitet kontra datalagring

Låt oss först titta på hur mycket data vart och ett av dessa delsamplingsprotokoll sparar oss när vi kodar våra videomaterial. Den goda nyheten här är att du inte ens behöver memorera dessa siffror eftersom det finns en mycket enkel tumregel för att ta reda på detta bara från namnet på protokollet. Jag ska ge dig den här snabba regeln om ett ögonblick, men låt oss se hur det fungerar.

Om vi kodar alla 8 pixlar med YCbCr (4:4:4) med ett bitdjup på 8 behöver vi 8 bitar för varje luma-pixel, 8 bitar för varje Cb-pixel och 8 bitar för varje Cr-pixel, totalt 192 bitar för att koda hela 8-pixelmatrisen. Detta är lagringskravet för det förlustfria råformatet, som vi kan ta som baslinje eftersom vi inte sparar något utrymme med det här protokollet.

För 4:2:2 har vi bara fyra Cb- och fyra Cr-pixlar istället för åtta av varje, så vi kan koda hela 8-pixelmatrisen med bara 128 bitar – en besparing på en tredjedel.

För 4:2:0 har vi bara två Cb- och två Cr-pixlar istället för åtta av varje, så vi kan koda hela 8-pixelmatrisen med bara 96 bitar – en besparing på hälften.

Den snabba och enkla tumregeln för att ta reda på hur mycket varje videoformat sparar är att lägga ihop siffrorna i protokollets namn och dividera med 12. Så 4:4:4 =12/12 =1, 4:2:2 =8/12 =0,67 och 4:2:0 =6/12 =0,5. Lätt!

Så hur är det med bildkvaliteten?

Med allt snack om att kassera färgupplösning kan du vara frestad att tro att 4:2:0 är något slags snabbt och smutsigt protokoll för att fånga videofilmer av låg kvalitet med ett minimum av lagringsutrymme, men det kan förvåna dig att lära dig att 4:2:0 faktiskt är standarden för högkvalitativa digitala videomedier som Blu-ray. Om du tänker på en analogi från stillbildsvärlden kastar vi effektivt bort en enorm mängd information när vi konverterar en bild från dess ursprungliga råformat till en JPEG, men vi kan fortfarande göra utskrifter i väggstorlek från en JPEG-bild om upplösningen är tillräcklig.

I själva verket skulle du vara hårt pressad att se mycket, om någon, skillnad under de flesta omständigheter mellan video som spelas in med råformatet och video som tagits med 4:2:0. Skillnaderna finns definitivt där om du är fast besluten att pixelpipa, men de är vanligtvis subtila - dyker främst upp i scener där bilden är uppdelad av skarpa kanter vid gränserna för olika färger. Bilden nedan visar en jämförelse mellan de tre delsamplingsprotokollen som diskuteras här, och i den förstorade vyn kan du se spår av subsamplingsartefakterna för 4:2:0 och 4:2:2.

Chroma subsampling artefakter, med tillstånd av Janke, Wikipedia

Bortsett från den högre kvaliteten på materialet som den levererar, lyser rå (4:4:4) video verkligen när det kommer till redigering. För att återgå till vår stillbildsliknelse, fotograferar många professionella fotografer i råformat även om de i slutändan kommer att leverera sina bilder i ett komprimerat format som JPEG, eftersom det ger dem mycket mer flexibilitet och kontroll under redigeringsprocessen. Samma typ av tillvägagångssätt följs ofta av professionella videografer.

Råvideo är okomprimerad (eller använder förlustfri komprimering), behåller färg i full upplösning för varje pixel och undviker eventuella problem med komprimeringsartefakter vid redigeringsstadiet. Eftersom videon är obearbetad har videoredigeraren mycket mer flexibilitet att manipulera och justera materialet – till exempel ställa in vitbalansen, återställa blåsta högdagrar eller mörka skuggor eller tillämpa färggradering. För chroma key-arbete – t.ex. fotografering mot en grön skärm – eller någon form av kompositering i efterproduktion, är användningen av råvideo viktigt för att undvika artefakter som färgfransar och taggiga kanter som kan uppstå som ett resultat av chroma subsampling.

Så efter att ha läst den här artikeln är det min förhoppning att nästa gång du dyker in i videomenyn på din kamera kommer du att tycka att utbudet av videoformatalternativ är lite mindre skrämmande – samt att du har en bättre uppfattning om vilka konsekvenserna kommer att bli för att välja ett format framför ett annat när det gäller att lagra och hantera dina bilder.