Kodowanie mp3 - zyski i straty.pdf

(340 KB) Pobierz
113656966 UNPDF
EiS 2003-01
TECHNOLOGIA
Kodowanie MP3
rachunek zysków i strat
Łukasz Komsta
Kiedy w 1987 roku w niemieckim Instytucie Fraunhofera rozpoczęły się prace nad nowym
standardem kompresji dźwięku, postawiono projektowi szereg bardzo istotnych wymagań.
Większość technicznych rozwiązań, które przyjmują się na długo, bazuje na solidnych
merytorycznych fundamentach, które zapewniają elastyczność i możliwość rozwoju w przyszłości.
Tak też było z MP3.
Ze względu na to, iż format MP3 projektowano do cyfrowej transmisji dźwięku przez radio,
posiada on bardzo istotne z punktu widzenia użytkownika cechy:
• Strumieniowość. W odróżnieniu od innych plików (np. WAV) istnieje możliwość odtwarzania
dowolnej części pliku. Dzięki temu możemy słuchać utworu jeszcze przed całkowitym
ściągnięciem go z sieci, czy też słuchać radia w MP3 (shoutcast).
• Elastyczność. Standard MP3 opisuje wyłącznie format zapisu dźwięku oraz technologię jego
odtwarzania. Natomiast sama technologia kodowania jest od niego całkowicie niezależna. Oznacza
to, iż w miarę postępu nad tworzeniem nowych sposobów kodowania (modele psychoakustyczne)
nie trzeba zmieniać ani programów, ani urządzeń odtwarzających.
• Uniwersalność. W zależności od potrzeby MP3 oferuje 14 jakości CBR (Constant Bitrate - stała
szybkość transmisji bitów od 32 do 320kbps), przeróżne możliwości zmiennych bitrate VBR i
ABR, tryb Joint Stereo oraz Normal Stereo, etc. W efekcie otrzymujemy niesamowitą liczbę
kombinacji oferujących nam dźwięk o jakości od telefonicznego, do nierozróżnialnego od płyty
CD.
Jeśli jesteśmy absolutnymi purystami lub zależy nam na pełnej archiwizacji dźwięku, powinniśmy
113656966.001.png
odstawić MP3 na korzyść dostępnych algorytmów kompresji bezstratnej. Zmniejszają one objętość
WAV-ów jedynie o połowę, jednak pozwalają w każdej chwili odtworzyć WAV bez żadnego
uszczerbku. Do większości dostępne są wtyczki do Winampa. Najpopularniejszymi są: FLAC oraz
MPP MUSEPACK. (Polecamy też takie aplikacje jak a-Pac 1.0 - znajdziesz ją na krążku EiS CD
03/2002, WaveZip - EiS CD 06/2000, Monkey's Audio - EiS CD 02/2001, Rat Hole - EiS CD
06/2002 i WavPack - EiS CD 03/2002; przyp. red.)
Jakość odtwarzania. Jeszcze do niedawna zapis w
postaci MP3 wiązał się ze słyszalnym spadkiem jakości
dźwięku. Pomiędzy płytą CD a odtwarzaniem z
komputera czuło się istotną różnicę, ale piętnastokrotne
zmniejszenie objętości pliku rekompensowało
wszystkim te niedogodności. Można wymienić dwie
przyczyny słabej jakości pierwszych empetrójek:
niedoskonałość ówczesnych koderów oraz pojemność
dysków. Większość plików MP3 kodowano wtedy w 64-
96kbps; wprawdzie pliki 112-128kbps wydawały się
znakomicie brzmiące, ale nikt ich nie przechowywał z
uwagi na oszczędność miejsca. Przy obecnych cenach i
pojemnościach dysków twardych można kompresować
utwory nawet do 320kbps i nikt nie będzie robił
problemu z utraty np. 2MB na każdy utwór. Jednak
zawsze istnieje pewna granica, będąca najmniejszym
plikiem o już wystarczającej, nierozróżnialnej jakości.
Oto najistotniejsze czynniki decydujące o odsłuchu
MP3:
• W przypadku zgrywania płyty CD, użycie odpowiedniego rippera z korekcją błędów.
• Użycie konkretnego kodera, wraz z jego modelem psychoakustycznym.
• Wybór odpowiedniej jakości nagrania (bitrate).
• Wybór pomiędzy stałą (CBR) a zmienną (VBR i ABR) bitrate.
• Wybór odpowiedniej częstotliwości filtru dolnoprzepustowego.
• Wybór standardu stereo (stereo, joint stereo, dual channels, mono).
Ripper. Wbrew pozorom większość popularnych ripperów nie ma wbudowanej zaawansowanej
korekcji błędów ani też nie sygnalizuje ich wystąpienia. W związku z tym praktycznie za każdym
razem otrzymujemy nieco inny plik WAV, zafałszowany drobnymi trzaskami czy też
zniekształceniami. To narzuca konieczność żmudnego słuchania każdego utworu oraz powtarzania
procesu zgrywania w razie niezadowalających rezultatów.
Aktualnie bezkonkurencyjnym i jedynym ripperem, oferującym wszystkie metody korekcji
błędów, jest Exact Audio Copy (w skrócie EAC - http://www.exactaudiocopy.de). Do zastosowań
niekomercyjnych jest on bezpłatny, współpracuje doskonale z większością koderów MP3, używa
tagów i pozyskuje tytuły utworów z bazy FreeDB. Jeśli EAC napotka na miejsce, którego nie jest
w stanie wiernie zgrać z płyty, zaznaczy to w logu stosownym wpisem. Jeśli ktoś nie chce
marnować czasu na ripping płyt CD powinien używać wyłącznie tego programu. Może zabrzmi to
jak fanatyzm, lecz po prostu na rynku nie ma nic innego, co mogłoby z nim konkurować.
Koder. Zdecydowana większość plików kodowana jest programami Lame, Blade, Xing i FhG
(płatny koder Fraunhofera). Pozostała niewielka część jest kodowana kodekami wbudowanymi w
niektóre programy do edycji dźwięku (wywodzącymi się od powyższych czterech), bądź też
kodekami Microsoftu wbudowanymi w Windows (jakość zdecydowanie gorsza). W związku z tym
wybór kodera nie jest trudny - po prostu nie jest ich dużo.
Z informacji podawanych w internecie wynika, iż pod względem generowanego widma oraz
113656966.002.png
subiektywnego odsłuchu najlepiej wypada koder Fraunhofera i Lame, najgorzej zaś Blade i Xing.
Inny test jako najlepszy wskazuje koder Lame. W teście tym brany jest pod uwagę również czas
kodowania, przy czym generalna zasada jest taka, iż przyspieszenie kodowania zawsze owocuje
gorszą jakością dźwięku.
Jeszcze niedawno w sieci krążyły artykuły, iż do niższych bitrate najlepszym wyborem jest Lame,
zaś do wyższych - Blade. Obecnie Lame rozwinął się już do tego stopnia, iż według wielu
niezależnych testów produkowany przez niego dźwięk brzmi najlepiej. Najczęściej Fraunhofer nie
jest koderem branym pod uwagę, gdyż jego jakość kodowania jest porównywalna z Lame, ale jest
niestety płatny.
Dla sprawdzenia zakodowałem przykładowy plik dźwiękowy w bitrate: 56, 64, 96, 112, 128 i
160kbps przy użyciu kodera Lame i Blade (najnowsze wersje). Dźwięk skompresowany Lame jest
zawsze naturalny, traci jedynie na jakości. Przy niższych bitrate jest podobny do Real Audio. Nie
wyczuwa się jednak żadnych obcych zniekształceń. W przypadku Blade nagrań po prostu nie da się
słuchać na niższych bitrate (efekty "gulgotania"). Jeszcze przy 160kbps jest wyraźna różnica w
jakości.
Bitrate. Powszechnie uważa się, iż jakość 128kbps jest już bardzo zbliżona do CD, jednak na
dobrym sprzęcie słyszalna jest wyraźna różnica. W
przypadku 160-192kbps większość osób nie potrafi
usłyszeć istotnej różnicy, pod warunkiem zastosowania
właściwego kodera. Natomiast bitrate 256kbps tworzy
plik nie do odróżnienia od CD nawet przez wytrawnych
audiofilów przy odsłuchu na sprzęcie najwyższej klasy
(testy na www.r3mix.net).
Stąd też wynika ogólna zasada, iż kodowanie powyżej
256kbps praktycznie nie ma sensu, gdyż nie ma żadnej
istotnej różnicy, a plik jest znacznie większy. Jeśli
zależy nam na jakości, nie powinniśmy schodzić poniżej
160kbps oraz rozważyć możliwość stosowania zmiennej
bitrate.
Tryby stereo. Obecnie w formacie MP3 stosuje się
następujące tryby kodowania stereo:
• Stereo - koder decyduje ile bitów przydzielić
konkretnemu kanałowi na podstawie jego zawartości;
kodowane są oba kanały.
• Forced Joint Stereo - koder tworzy sygnał sumy (L+P)
i przydziela mu znacznie więcej bitów niż drugiemu
sygnałowi, tzw. różnicy (L-P). W większości
przypadków efektem jest poprawa jakości przy tej samej bitrate.
• Joint Stereo - koder używa obu powyższych trybów stosownie do fragmentu utworu.
• Dual Channel - koder przydziela dla obu kanałów stałą liczbę bitów równą połowie całkowitej.
Obecnie rozwiązanie to ma sens wyłącznie przy nagraniach, gdzie w dwóch kanałach słychać
zupełnie co innego (np. wersje językowe).
Najwięcej plików kodowanych jest w Joint Stereo, a wszystkie testy przemawiają za stosowaniem
tego trybu.
Filtr górnoprzepustowy. Obcięcie częstotliwości powyżej pewnej granicy stanowi bardzo istotny
element kompresji MP3. W większości przypadków optymalna granica wynosi 18-19,5kHz.
Najczęściej ucho ludzkie słyszy jeszcze wyższe dźwięki, lecz w gotowym nagraniu nie jest to
wyraźnie rozróżnialne.
Generalnie usunięcie zbyt wysokich częstotliwości przed kompresją odbija się na lepszej jakości
113656966.003.png
pozostałego spektrum utworu. Stąd też ciągłe dyskusje dotyczące optymalnej częstotliwości.
Czego używać? Podsumujmy najważniejsze fakty:
1. Kompresja dźwięku MP3 jest zawsze kompresją stratną, stanowiącą kompromis pomiędzy
objętością pliku a jakością jego odsłuchu. Jednak termin "kompresja stratna" nie musi oznaczać
pogorszenia jakości dźwięku.
2. Obecnie najlepszym darmowym koderem MP3 jest Lame.
3. Większość osób nie słyszy różnicy pomiędzy MP3 a CD - dopiero przy 160-192kbps, zaś
niezależne testy wykazują, iż 256kbps nie jest praktycznie w ogóle odróżnialne od jakości CD.
4. Kompresja VBR/ABR daje lepszą jakość niż CBR przy tej samej objętości pliku.
5. Jeśli zależy nam na oszczędności miejsca, powinniśmy pliki kompresować na VBR, z
ustawieniami Standard, Extreme lub R3mix. Ustawienie R3mix pozwala na największą
oszczędność miejsca z zachowaniem tej samej jakości odsłuchu.
6. Jeśli miejsce na dysku nie jest dla nas problemem, powinniśmy kompresować MP3 ze stałym
bitrate równym 256kbps. Kompresja 320kbps nie przynosi żadnej widocznej poprawy, zajmuje
tylko więcej miejsca. Jeśli jednak chcemy koniecznie spać spokojnie i mamy do dyspozycji
gigabajty przestrzeni, najlepszym możliwym wyborem będzie 320kbps (insane) .
7. W razie konieczności archiwizacji wyjątkowo cennych nagrań, należy rozważyć stosowanie
kompresji bezstratnej.
8. Jeżeli najważniejszym kryterium jest niewielki skompresowany plik (np. prezentacja w
internecie) należy zastanowić się nad możliwością użycia innych formatów, np. Real Audio.
9. Do zgrywania utworów z płyt CD należy używać wyłącznie oprogramowania pozwalającego na
wierne przeniesienie danych z płyty na dysk z sygnalizacją ewentualnych przekłamań (obecnie
wyłącznie Exact Audio Copy).
Zgłoś jeśli naruszono regulamin