Prawie jak oryginał - Dziecko

Odtwarzacz mp3, komórka, Internet – symbole początku XXI wieku. Ich działanie opiera się na nabieraniu naszego mózgu, któremu mimo to wydaje się, że wciąż panuje nad rzeczywistością.

Słuch to zmysł o niezwykłej czułości. Jesteśmy w stanie określić kierunek, z którego dochodzi do nas dźwięk z dokładnością do kilku centymetrów. Mózg potrafi dokonać tego, opierając się na różnicy w czasie dotarcia fali dźwiękowej do obu uszu. Odległość między małżowinami usznymi wynosi około 30 centymetrów, a więc różnica czasu to zaledwie jedna milisekunda! Ta niezwykła umiejętność zwiększała szanse przeżycia, gdy nasi przodkowie musieli precyzyjnie zlokalizować skradającego się wśród traw drapieżnika.

Również nasz wzrok potrafi zadziwić – po długim przebywaniu w ciemnościach nasz system optyczny staje się tak czuły, że może wykryć pojedynczy foton. To jedyne pojedyncze zjawisko odbywające się w skali atomowej, jakie możemy zarejestrować naszymi zmysłami. Mimo niezwykłych właściwości nasze zmysły mają swoje ograniczenia. Odkrycie ich i umiejętne wykorzystanie stało się podstawą działania kilku nowoczesnych technologii, z którymi codziennie się stykamy.

Narodziny mp3
Jedną z największych rewolucji przełomu wieków stało się rozpowszechnienie plików mp3. To z obawy przed nimi wielkie wytwórnie zmieniają swoją politykę, a dzięki nim producenci sprzętu zbijają fortunę na odtwarzaczach. Fenomen tego formatu opiera się na stosunkowo wysokim stopniu kompresji dźwięku. Typowa płyta kompaktowa ma pojemność 650 megabajtów – pięciominutowy utwór zajmuje na niej nieco ponad 50 megabajtów. Tymczasem ten sam utwór spakowany do pliku mp3 zajmuje nawet 14 razy mniej. Jak to możliwe?

Podstawy sposobu kompresji nazwanego MP3 (oficjalnie: MPEG-1/2 Audio Layer 3) wymyślił Karlheinz Brandenburg. Gdy pracował nad swoim pomysłem, trafił na piosenkę "Tom’s Diner" śpiewaną przez Suzanne Vega. To było wyzwanie! – Byłem już gotowy do testowania mojego algorytmu kompresji – wspomina Karlheinz Brandenburg – Wtedy usłyszałem, jak gdzieś w radiu leci "Tom’s Diner". To był wstrząs. Wiedziałem, że niemal niemożliwe będzie spakowanie tego ciepłego głosu śpiewającego a cappella.
Brandenburg pracował, tak modyfikując algorytm pakujący dźwięk, by jak najlepiej oddać niuanse ludzkiego głosu. Wymagało to wielkiego wyczucia, ponieważ mp3 wykorzystuje tak zwaną stratną kompresję – podczas pakowania część danych jest bezpowrotnie tracona. Cała sztuka polega na tym, by wyrzucić to, co niezbyt ważne, a zachować to, co niezbędne. Opisaniem tych zależności zajmuje się tak zwany model psychoakustyczny – zbiór informacji opartych na wiedzy o budowie ludzkiego ucha i działaniu mózgu.

Mózg okłamany
To, co słyszymy, często niewiele ma wspólnego z tym, co faktycznie dociera do naszych uszu. Drgania powietrza są najpierw przetwarzane przez skomplikowany system ucha wewnętrznego na sygnały nerwowe, a potem poddawane obróbce przez mózg. Cały ten mechanizm powoduje, że niektórych dźwięków w pewnych sytuacjach po prostu nie możemy usłyszeć. To tak zwany efekt maskowania. Jeśli ktoś klaśnie w cichym pokoju, to usłyszymy wyraźny, głośny dźwięk. Ale w pobliżu startującego samolotu można sobie klaskać do woli, a i tak nic nie słychać. Choć to dość drastyczny przykład, podobny mechanizm wykorzystuje się przy stratnej kompresji muzyki. Jeżeli wraz z cichym dźwiękiem pojawia się głośny, to nie mamy szans usłyszeć tego pierwszego. A więc w orkiestrze ryknięcie trąby zagłuszy delikatny flet. W oryginalnym nagraniu z koncertu na płycie CD zapisane są oba te dźwięki, jednak jeśli zależy nam na zmniejszeniu objętości pliku, śmiało możemy wyrzucić flet, bo i tak nie byłoby go słychać.

Maskowanie działa też wtedy, gdy cichy dźwięk pojawia się chwilę po głośnym, a nawet... moment przed nim. Ten drugi przypadek wciąż zadziwia naukowców – prawdopodobnie pozorna zamiana miejscami przyczyny i skutku to efekt opóźnienia przetwarzania sygnałów w ludzkim mózgu. Jeżeli przeanalizujemy cały utwór i wyrzucimy z niego wszystkie zamaskowane dźwięki, możemy zaoszczędzić mnóstwo miejsca.

Kolejna sztuczka z arsenału psychoakustyki to wiedza o tym, że najlepiej słyszymy dźwięki o częstotliwości od jednego do pięciu kiloherców. Choć teoretycznie ludzkie ucho radzi sobie w zakresie od 20 Hz do 20 kHz, to mało kto dobrze słyszy najwyższe tony. Z kolei tych najniższych większość słuchawek czy głośników nie ma szans odtworzyć. Z czystym sumieniem można więc obciąć najwyższe partie skrzypiec i najniższe wibracje organów. Takie informacje pozwalają usunąć z oryginalnego nagrania kolejną porcję danych i znowu zmniejszyć wielkość końcowego pliku.

Jest jednak pewien problem – ludzie to nie maszyny i każdy z nas słyszy trochę inaczej. Dlatego jednym nie przeszkadza słuchanie mocno pokrojonej muzyki, a inni zżymają się nawet przy minimalnych zmianach. Na szczęście programy kodujące muzykę do postaci pliku mp3 są bardzo elastyczne i pozwalają na ustawienie siły i rodzaju stosowanej kompresji. Dzięki przy blisko pięciokrotnym zmniejszeniu objętości można zachować jakość tak wysoką, że tylko ludzie o doskonałym słuchu wychwycą różnicę.

Charakterystyczne zresztą jest to, że słuchacze skłonni są przeceniać swój słuch. Gdy słuchają utworu, wiedząc, że został on skompresowany, skłonni są osądzać jego brzmienie bardzo surowo. Jednak w ślepych próbach, gdy słuchacz nie wie, czy muzyka jest oryginalna, czy spakowana, okazuje się, że ogromna większość ludzi nie jest w stanie odróżnić dobrze przygotowanej empetrójki od zawartości kompaktu.

Jednak nawet ci o najwrażliwszym słuchu znajdą coś dla siebie – mp3 to niejedyny sposób na "ściśnięcie" muzyki. Firma Sony promuje swój format ATRAC, Apple proponuje muzykę zapisaną w plikach AAC. Oba te formaty są znacznie młodsze niż mp3 i, jak twierdzą ich twórcy, znacznie lepsze. Różnica polega na większej efektywności pakowania – plik skompresowany w formacie AAC ma być mniejszy niż mający tę samą jakość spakowany do mp3. Problem w tym, że jakości nie sposób obiektywnie zmierzyć, a słuchacze różnią się między sobą odbiorem tych samych dźwięków. Ponadto każdy format ma wiele ustawień i odmian, więc całkowicie obiektywne porównanie jest niemożliwe.

Mowa w kawałkach
Inną szczególną cechę naszego ciała wykorzystuje system transmisji dźwięku używany w telefonii komórkowej. Tam sprawa jest szczególnie trudna – trzeba w czasie rzeczywistym przekazać ludzką mowę, przepychając ją przez stosunkowo wolne radiowe łącze. Trzeba przy tym pamiętać, że ludzki mózg jest wyspecjalizowany właśnie w odbiorze tego typu dźwięków, więc natychmiast wychwytuje każde przekłamanie. Na dodatek całe kodowanie musi się odbyć w stosunkowo niewielkim telefonie komórkowym, któremu daleko mocą do zaawansowanych komputerów.
Aby uprościć całe zadanie, wykorzystano ciekawe odkrycie dotyczące sposobu, w jaki wypowiadamy i słyszymy słowa. Nasz aparat mowy ma spory bezwład. Okazuje się, że jeśli potniemy całą mowę na odcinki mające po 20 milisekund, to w tym czasie jego układ zmienia się na tyle mało, że nasze ucho nie odczuje różnicy. Dlatego całą transmisję głosu dzieli się na takie małe fragmenty i przetwarza tak, że w obrębie każdej takiej "cegiełki" dźwięk się nie zmienia. Tak spreparowane fragmenty łatwo opisać kilkoma liczbami, których przekazanie przez radio jest proste i oszczędne.

Dodatkowo podczas transmisji "cegiełek" miesza się je starannie po to, by zabezpieczyć przekaz przed błędami. Gdyby w wyniku zakłóceń zaginęło kilkanaście kolejnych 20-milisekundowych pakietów, całe słowo stałoby się niezrozumiałe. Jeśli natomiast poginą maleńkie fragmenty z różnych części wypowiedzi, nawet tego nie zauważymy. Charakterystyczne przerywanie rozmowy pojawia się dopiero wtedy, gdy transmisja jest tak słaba, że nie może jej uratować ani ten, ani jeden z kilku innych działających równocześnie systemów korekty błędów.

Pocięty obraz
Jednak stratna kompresja stosowana jest nie tylko przy zapisie i przekazywaniu dźwięku. Znane wszystkim z Internetu obrazy zapisane w formacie jpg (lub jpeg) również tylko pozornie są identyczne z oryginałem, z którego powstały. W rzeczywistości po raz kolejny jesteśmy sprytnie oszukiwani.
Format jpeg powstał specjalnie po to, by zapisywać w nim zdjęcia, które nie mają nazbyt wielu drobnych detali, a za to sporo w nich płynnych przejść kolorystycznych. Świetnie więc wyglądają spakowane w ten sposób krajobrazy czy portrety, a fatalnie na przykład strony drobnego druku. Kompresja opiera się na kilku sztuczkach. Pierwsza polega na tym, że ludzkie oko znacznie lepiej dostrzega drobne różnice jasności niż kolorów. Dlatego już na wstępie informacje o tych dwóch parametrach obrazu zapisuje się oddzielnie. O ile jasność trzeba chronić, o tyle wyrzucenia części informacji o kolorze i tak nikt nie zauważy.

Kolejna machlojka to pocięcie obrazu na prostokątne bloki zawierające kilkadziesiąt punktów. Zamiast skrupulatnie zapisywać parametry każdego punktu obrazu, ustala się przede wszystkim średnią wartość koloru wewnątrz poszczególnych bloków. Oczywiście zapisanie tych wartości zajmuje znacznie mniej miejsca. Obrazek złożony z takich bloków wygląda na pierwszy rzut oka równie dobrze jak oryginał. Oszustwo można wykryć tylko przy dużym powiększeniu lub wyjątkowo silnej kompresji – widać wtedy charakterystyczne prostokąty i przekłamania kolorów. Tylko kto by się przyglądał szczegółom krajobrazu czy wsłuchiwał w dźwięk fletu?

Piotr Stanisławski/ Przekrój Nauki