Blogikirjoituksia

Digitaalisen äänen dynamiikka
Lokakuu 2019

Äänen kovuutta mitataan desibeleissä, mutta erilaiset musiikin digitaaliset tiedostomuodot sisältävät dynaamisia alueita, jota myös mitataan desibeleissä. Asia saattaa olla aika hämmentävä, joten ensin täytyy vähän avata mitä koko desibelien mittausjärjestelmässä on ideana:

0 desibelin taso katsotaan olevan kaikkein hiljaisin ääni minkä ihmiskorva pystyy kuulemaan, kun taas kovin ääni mitä ihmiskorva voi kuunnella, ilman että siitä on vahinkoa korville, on noin 120-130 desibeliä. Musiikin dynaamiseksi alueeksi kutsutaan äänitetyn materiaalin hiljaisimman kohdan ja voimakkaimman kohdan eroa. Mutta digitaalisessa äänessä voi työskennellä eri bittisillä tiedostomuodoilla ja bittimäärästä riippuen, noilla tiedostoilla on eri suuruisia dynaamisia alueita.

Kuulostaa ehkä hämmentävältä, mutta tästä yksinkertaisuudessaan on kyse:

Mitä suurempi dynaaminen alue digitaalisessa tiedostossa, niin sitä suurempi turvabufferi (vaara digitaaliselle särölle) ja sitä vähemmän kohinaa ja häiriöitä musiikissa ilmenee. Suurin syy miksi digitaalista häiriöitä ei ilmene nykyään enää, ovat AD konverttereiden anti aliasing filtterit, jotka ovat paljon kehittyneet viime aikoina. Nämä anti aliasing filtterit, jotka ovat monille tuttuja videopeleistä ja varsinkin tietokoneiden näytönohjaimista, ovat sen parempia mitä suurempi dynaaminen alue äänitiedostolla on.

anti aliasing filter

Usein kuulee puhuttavan, että esim. 16 bittisellä audiolla on noin 96 desibelin dynaaminen alue ja 24 bittisellä audiolla taas 144 desibelin dynaaminen alue. Mitä tämä käytännössä tarkoittaa ja miksi se on tärkeä tietää?

Ensin on hyvä erottaa kaksi asiaa toisistaan: nyt puhutaan digitaalisista tiedostomuodoista millä musiikkitiedostoja prosessoidaan työaseman (DAW) sisällä ja korkeamman bittisyyden tuottamista eduista. Ei siis puhuta mp3, m4a tai muista vastaavista tiedostomuodoista mihin muotoihin musiikki pakataan ja konvertoidaan, jotta se veisi mahdollisimman vähän tilaa. Mp3 ja M4a tiedostot ovat loppukäyttäjille suunnattuja tiedostomuotoja, joiden tiedostokoko on pienempi kuin esim. 24 bittisen wav tiedoston. 254 kbps mp3 tiedosto on vain noin 10% 24 bittisen tiedoston koosta ja siksi se soveltuu hyvin lähetettäväksi sähköpostilla tai niitä voi ladata satoja puhelimeen sekä erilaisiin digitaalisiin soittimiin.

24 bittinen prosessointi

Jos teemme äänitykset 24 bittisessä tiedostomuodossa, niin dynaaminen alue, niin kuin edellä totesin, on kokonaiset 144 desibeliä. Mitä enemmän dynaamista tilaa, eli mitä korkeammalla bittiresoluutiolla äänitetään, vaara digitaaliselle säröytymiselle pienenee ja sitä vähemmän häiriöitä ja ei haluttua kohinaa äänityksessä ilmenee - vaikkakin tasoja pusketaan, kompressoidaan, limitoidaan jne. tämä on se alussa mainittu turvabufferi.

Miksi sitten melkein kaikki nykyaikaiset digitaaliset äänitysohjelmat/softat (DAW) sisältävät 32 bittisen prosessointi vaihtoehdon?

32 bittinen tiedosto on oikeastaan 24 bittinen tiedosto, mutta sillä on 8 desibeliä lisää tilaa/headroomia. Se on tarkoitettu ainoastaan työaseman/softan sisäiseen prosessointiin ja sitä tiedostomuotoa ei kannata lähettää kenellekään kuunneltavaksi, koska mikään nykyaikainen musiikkisoitin ei suostu sitä soittamaan. Tietenkin nämä digitaaliset työasemat (DAW) osaavat niitä soittaa, mutta niitä ei ole kuin yleensä kuin musiikin ammattilaisilla. 32 bittisellä prosessoinnilla ei ole myöskään mitään vaikutusta äänen laatuun sinänsä, mutta se antaa vieläkin turvallisemman ympäristön missä digitaalisia plugareita eikä äänityssoftan ulostuloja ajeta särölle. Varsinkin "32 bit floating point" formaatti suojaa klippaamiselta, eli tasojen menemisestä punaiselle tai digitaalisen nollan ylittämisestä, jossa ääni menee särölle. 32 bittisellä floating point tiedostolla on uskomaton 1680 desibelin dynaaminen alue!

masterointi

Asian ymmärtää parhaiten esimerkin avulla:

Jos työstämme 32 bit floating point tiedostomuodossa (lisäämällä plugareita jne), on melkein mahdotonta saada ääntä särölle. Lisäksi jos saamme materiaalia, joka on 32 bittisessä floating point muodossa, voimme lisätä gainia niin paljon kuin haluamme, ilman että itse äänenlaadussa tapahtuu muutosta. Alemmilla tiedostomuodoilla radikaali gainin lisääminen nimittäin muuttaa myös äänitiedoston luonnetta. Ajatellaan että esimerkiksi käsittelemme 32 bittistä floating point tiedostoa työaseman sisällä ja lisäämme jollain plugarilla gainia niin, että raita menee särölle ja printtaamme lopputuloksen ulos 32 bittisenä float tiedostomuotona. 24 bittiselle säröytyneelle tiedostolle emme voi enää tehdä mitään, mutta 32 bittinen float voidaan jopa printtaamisen jälkeen laittaa yksinkertaisesti hiljempaa ja särö poistuu! Eli 32 bittinen on erittäin kätevä tiedostomuoto äänen käsittelyyn. Sen varjopuoli on, että tiedostokoot ovat paljon isommat ja sen käsittely vie enemmän prosessoritehoa. 32 bittisen eri äänilähteitä voi yhdistellä ja ajaa ulos yhden kanavan kautta, mutta yhdistelmien suuri desibelimäärä ei yhtä helposti särötä kanavan ulostuloa. 32 bittinen formaatti varmistaa myös, että äänilähteet eivät tuota yhtä paljon ylimääräisiä kvantisaatiovirheitä sekä matalia häiriöääniä kuten alemmat tiedostomuodot.

Kukaan ei pysty kuulemaan eroa 16 bittisen ja 24 bittisen äänitiedoston välillä. Niissä on kyllä ihan pieni ero, mutta normaali kuuntelussa se ei tule ilmi. Yksi syy miksi olisi hyvä käyttää 32 bittistä tiedostomuotoa työasemassa ääntä prosessoidessa on se, että siitä alaspäin konvertointi (24, 16 bit, mp3 ym.) tuottaa paljon vähemmän edellä mainittuja häiriöitä.

Bittihistoriaa

Aikoinaan kun vinyylilevy keksittiin, niin sen dynaaminen alue oli noin 30-40 desibeliä, joka vastaa noin 5-6 bittistä resoluutiota. Kaseteilla (jotka ovat vähän taas tulossa muotiin) oli 6 bittinen resoluutio ja niiden dynaaminen alue oli noin 40 desibeliä.

Vinyylilevyllä taas on 60-70 desibelin dynaaminen alue, joka vastasi noin 11 bittistä resoluutiota. Sitten 80-luvun alussa tuli CD, jonka resoluutio oli 16 bittiä ja dynaaminen alue, niin kuin yllä jo totesin, on 96 desibeliä. Se oli siihen aikaan paljon enemmän kuin mihin koskaan oli päästy ja silloin ajateltiin sen riittävän ikuisesti.

Signaalin ja kohinan suhde

Kun puhutaan bittisyydestä ja viitataan resoluutioon, niin on ymmärrettävä termi "signal to noise ratio". Tuolla termillä ei ole suoraan suomalaista käännöstä, mutta se on vapaasti käännettynä "signaalin ja kohinan suhde". Aikoinaan kun äänitettiin kaikki analogisesti ja nauhalle, monet äänitykseen käytetyt ulkoiset prosessointilaitteet tuottivat paljon kohinaa. Tuo kohina, on muuten se paljon puhuttu "white noise" eli "valkoinen kohina". Kohinan aiheuttaa laitteiden analogiset piirit. Toisissa laitteissa se oli kovempi kuin toisissa, mutta kun tehtiin levyä ja laitteita saattoi olla kymmeniä - joskus jopa sata päällä yhtaikaa oikein isossa studiossa, niin voi kuvitella miten kova kohina niistä kaikista yhteensä tuli äänipöydän ulostuloihin. Tästä syystä taso, millä musiikki tuli analogisesta miksauspöydästä ulos, pyrittiin pitämään vähintään sen aikaisen VU mittarin 0 tasolla tai jopa vähän sen yläpuolella. Silloin päästiin tasoon, missä kohina ei enää kuulunut, tai ei enää häirinnyt. Oltiin siis saavutettu tyydyttävä "signal to noise ratio" eli "signaalin ja kohinan suhde".

Nykyään kun työskennellään digitaalisessa ympäristössä kohinaa ei muodostu juuri lainkaan, varsinkin jos käytämme 32 bittistä float formaattia. On jokseenkin hassua, kun nykyään on myynnissä paljon digitaalisia plugareita jotka on varta vasten tehty tuottamaan tuota kohinaa, mitä aikoinaan pyrittiin välttämään. Monet plugarit on mallinnettu analogisten alkuperäisten mallien mukaan ja niissähän oli tuota piirien aiheuttamaa kohinaa, joten mallinnuksessa (jos se on hyvin tehty) on kohina mukana. Tällä pyritään tuomaan analogista fiilistä digitaaliseen maailmaan. Tällä digitaalisella ajanjaksolla on huomattu, että kohinan lisääminen musiikkiin, varsinkin perinteisempään musiikkiin, ei niinkään nykyaikaisempaan elektroniseen musiikkiin, rikastuttaa sitä oikeassa määrissä käytettynä.

Kohinaa lisätään myös ditherointiprosessissa, kun äänitiedostoja konvertoidaan ylhäältä alaspäin, joka on täysin digitaalisuuden mukanaan tuoma prosessi. Ditheroinnista on ihan oma artikkeli tästä artikkelista: Ditheroinnin ymmärtäminen

Takaisin KW-Masterointi blogi sivulle

Puhelin: 040 5022 867

E-mail: KW Masterointi

KW-Masterointi
Kuurintorpantie 1 J
02750, Espoo