Belarriarenneurrikosoinua.mp3
2007/04/01 Etxebeste Aduriz, Egoitz - Elhuyar Zientzia Iturria: Elhuyar aldizkaria
Musika konprimitzeko hainbat formatu badaude ere, arrakastatsuena, dudarik gabe, MPEG-1 Audio Layer 3 da, MP3 izenaz askoz ere ezagunagoa. MPEG Estandarizaziorako Nazioarteko Erakundearen (ISO) lantalde bat da, eta talde horrek sortu zuen MP3 famatua.
Soinu digitala gordetzeko, datu-kopuru izugarria behar da, eta MP3 formatura konprimituz asko gutxitu daiteke kopuru hori, soinuaren kalitatean galerarik igarri gabe. Hori da MP3aren arrakastaren gakoa. Baina arrakasta horrek lotura zuzena du Internetekin ere. Izan ere, formatu horri esker, musika-artxiboak sarean erabilgarri bihurtu ziren.
1990eko hamarkadaren erdialdetik aurrera hasi ziren MP3 artxiboak sarean agertzen. Hamarkada haren bukaera aldera, besteak beste Winamp (1997) eta Napster (1999) softwareak agertu zirenean, musika konprimitzea oso gauza erraza bihurtu zen edonorentzat, eta baita konprimitutakoa erreproduzitzea, sarean partekatzea, edo besterik gabe jaistea ere. Hori sekulako mauka izan zen erabiltzaileentzat, musika mordoa doan lortzeko aukera eman baitzuen. P2P edo peer-to-peer sareen bidez musika partekatzea ohiko bihurtu da geroztik, eta hainbat polemika eta lege-arazo izan dira horren harira. Musikaren industrian ere eragin nabarmena izan du.
MP3-erreproduzitzaileek ere sekulako arrakasta izan dute, noski. Ez da harritzekoa; arrazoizko prezioa dute, eta musika mordoa gorde daiteke oso leku txikian, nahi duzun lekuan eta unean entzuteko. MP3ari esker, sakelako musika sortu da.
Horra hor MP3aren arrakastan eragin duten faktore batzuk. Baina, esan bezala, gakoa kalitatearen galera nabaririk gabe lortutako konpresio-mailan dago. Eta non dago, bada, misterioa? Nola lortzen du MP3ak, bestela hainbeste toki behar duen musika, hain toki txikian sartzea? Nola liteke 20.000 kanta poltsikoan sartu eta gero ondo entzutea? Bada, MP3 formatura konprimitzeko erabiltzen diren algoritmoek gure entzumenaren neurrira lan egiten dutelako. Gure entzumenak detektatuko ez duen informazioa kentzen dute algoritmo horiek, eta informazio hori asko izan daiteke.
Soinua zenbakiekin
Soinua nola konprimitzen den jakiteko, lehenago, soinua nola digitalizatzen den ulertu beharra dago. Soinua uhin bat da, eta, digitalizatzeko, uhin hori zenbakiekin adierazi behar da. Nyquist-en teoremaren arabera, maiztasun jakin bateko uhina zenbakien bidez adierazteko, ziklo bakoitzeko 2 neurri hartu behar dira. Beraz, hainbat frekuentziaz osatutako soinu bat zenbakiekin adierazteko, maiztasun handienaren halako bi zenbaki beharko dira. Gizakiak gehienez 20 kHz-eko (20.000 ziklo segundoko) soinua entzun dezake. Soinu hori digitalizatzeko, beraz, 40.000 neurri beharko lirateke segundoko. CDetan, adibidez, 44.100 neurri erabiltzen dira segundoko, eta hori da, hain zuzen ere, soinu digitalarentzat ezarrita dagoen kalitate-estandarra, 44,1 kHz.
Horrez gain, soinuaren intentsitatearen informazioa gordetzeko, neurri horietako bakoitzari balio bat eman behar zaio. Bit batekin, 0 eta 1 balioak adierazten dira, hau da, soinua badagoen edo ez dagoen. Bi bitekin, zeroaz gain beste 3 intentsitate desberdin adieraz daitezke, eta 16 bitekin 65.536. Bada, musikaren gorabehera eta ñabardura guztiak ondo adierazteko, 16 bit erabiltzen dira, hain zuzen ere, neurri bakoitzeko.
Gainera, musika estereoan gorde nahi bada, 2 kanal erabili behar dira. Azkenean, CD-kalitateko soinua gordetzeko, 1.411,2 kb/s behar dira (16 bit/ neurri x 44.100 neurri/s x 2 kanal). Edo, beste modu batera esanda, kalitate horretako soinuaren segundo bat gordetzeko, 1.411,2 kb (176 kB) behar dira.
Ez da eztia astoaren ahorako
CD-kalitate hori oso ona da, onegia agian, gizakia ez baita gai hor gordeta dagoen informazio guztia jasotzeko. Hori dio, behintzat, psikoakustikak. Soinuaren ezaugarrien pertzepzioa aztertzen du psikoakustikak. Eta pertzepzio horrek, noski, bere mugak ditu. Adibidez, 20-20.000 Hz bitartean dauden soinuak bakarrik entzun ditzakegu, eta, adinarekin, maiztasun altuak entzuteko gaitasuna txikitu egiten da. Egiaz, heldu gutxi dira 16 kHz-etik gora entzuteko gai, eta 60-70 urterako 10 kHz-etan egon ohi da muga.
Bada, MPEG algoritmoek modelo psikoakustikoak erabiltzen dituzte zer datu dauden soberan neurtu, eta entzun ezin duguna kentzeko. Alde batetik, 20 Hz-etik behera eta 20 kHz-etik gora dauden soinu guztiak ken daitezke zuzenean. Bestalde, soinua estereoan dagoenean, informazio errepikatua egon ohi da bi kanaletan. Frekuentzia jakin batetik behera ez gara gai soinua nondik datorren bereizteko, eta, beraz, maiztasun horietatik behera nahikoa da kanal bakarra kodetzea.
Baina modelo psikoakustikoek estaltze-efektuarekin egiten dute lan gehien. Maiztasun jakin bateko soinu batek antzeko maiztasuna duen beste soinu ahulago bat estaltzen du, eta ez gara gai ahulena entzuteko. Horri deitzen zaio estaltze-efektua, eta maiztasunak zenbat eta gertuago egon, orduan eta handiagoa da estalketa ere. Adibidez, 1 kHz-eko soinu batekin batera 1,1 kHz-eko beste bat badugu, baina azken horrek 18 dB gutxiago baditu, lehenengoa soilik entzun ahal izango dugu. Bigarren soinua 2 kHz-ekoa bada, aldiz, nahiz eta 18 dB gutxiago izan, entzun egingo dugu, kasu horretan 45 dB-eko diferentzia beharko bailitzateke, lehenak bigarrena estaltzeko.
Estaltze-efektua aldi berekoa izan daiteke, baina denboran oso gertu dauden soinuen artean ere gertatzen da. Gainera, gure entzumenaren bereizmen-gaitasuna ere asko aldatzen da maiztasunaren arabera. 2 eta 4 kHz bitartean dugu sentikortasun handiena, giza ahotsak hartzen duen tarte berean. Bada, hori guztia hartzen du kontuan soinua konprimitzen duen kodetzaileak.
Horretarako, 20 Hz-etik 20 kHz-erako maiztasun-espektroa hainbat azpibandatan banatzen da lehenengo, eta, gero, banda bakoitzean modelo psikoakustikoak aplikatuz, zein informazio den garrantzitsuagoa eta zein gutxiago kalkulatzen da. Duen garrantziaren arabera, bit-kopuru desberdina erabiltzen da informazio hori gordetzeko; hau da, datu batzuk kendu egin daitezke zuzenean, eta, beste asko gordetzeko, 16 bit erabili beharrean, nahikoa da askoz gutxiago erabiltzea.
Horrela, sobera dagoena kendu eta datu gutxiagoz adieraz daitekeena kodetu ondoren, algoritmo estandar bat erabiliz, informazio hori konprimitzea besterik ez da geratzen. Azkenean, konprimitu gabeko soinuaren 1.411,2 kb/s haietatik 32-320 kb/s-ra konprimitzea lor daiteke. Hala ere, konpresio-maila batetik aurrera, kalitate galera nabarmen egiten da, eta, normalean, ez da konprimitzen 128 kb/s baino gehiago.
Bestalde, erabiltzen den kodetzailearen arabera ere asko aldatzen da konpresioaren kalitatea, denek ez baitute modu berean kodetzen. Kodetzaile on bat erabiliz gero, 128 kb/s-rekin gehienek ez dute kalitate-galerarik nabarituko. Konprimitu behar den materiala zailagoa den kasuetan, ordea, edo entzulearen belarria trebatua dagoen kasuetan, 192 kb/s beharrezkoa izan daitezke, galerarik ez nabaritzeko. Dena den, konpresio-maila aldakorra ere izan daiteke. MP3 artxiboen zati bakoitzak konpresio-maila desberdina izan dezake, eta, hala, soinuak dinamismo gehiago duenean, bit gehiago erabil daitezke, kalitate hobea lortzeko.
Azken batean, gure neurrira egindako formatua da MP3a. Gure belarrientzat propio prestatua. Musika txiki egiteko gai dena, haren handitasuna ukitu ere egin gabe.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia