DSP - Digital Signal Processing

Akustyka

DSP (Digital Signal Processing), czyli cyfrowe przetwarzanie sygnałów audio, traktowane tylko hasłowo w testach i opisach jako proste rozwiązanie nieprostych problemów, jest jednak przedmiotem dyskusji i kontrowersji w bardziej zaawansowanych kręgach audiofilskich. Stosowanie DSP w sprzęcie audio ma więc przeciwników.

Czy DSP jest niezbędne zawsze, gdy wykorzystujemy materiał w formie cyfrowej?

Czytelnikowi bez specjalistycznego przygotowania spróbuję przedstawić ten temat w sposób przyjazny. Wystarczy wrzucić do Google zapytanie o książki o DSP i dostaniemy tasiemcową listę, z której znaczna część pozycji przekracza 500 stron najeżonych wykresami, tabelami i wyliczeniami.

Względnie łatwe objaśnienie DSP wymaga odpowiednio dobranej perspektywy. Proponuję raczej niespotykaną w książkach naukowych, ale praktyczną linię podziału DSP na dwie grupy – "ulepszacze" i "strażaków".

O ile "ulepszanie" jakości dźwięku w powszechnej opinii kojarzy się z DSP, o tyle działanie "strażaków" może być sporym zaskoczeniem. Chodzi tu o tę część audio DSP, która ma na celu pozbycie się niekorzystnych efektów wynikających z samego faktu, że jeżeli chcemy korzystać z cyfrowego materiału audio, musimy przejść z naturalnej analogowej postaci sygnału muzycznego do postaci cyfrowych próbek.

Rzecz w tym, że po tej drastycznej zmianie czeka nas, niestety, poważne sprzątanie lub, obrazowo ujmując, "gaszenie pożaru", który w nieskazitelnie gładkim sygnale analogowym wypalił "czarne dziury" wynikające z cyfrowego poszatkowania.

Przykładowo: w przypadku formatu CD cyfrowe próbki audio mają przypisany jeden z 65 000 poziomów napięcia (kwantyzacja) i są produkowane z ciągłego sygnału analogowego z gęstością 44 100 próbek na sekundę.

Rys.1. Zapis charakterystyki głośnika wysokotonowego (powyżej 15 kHz spadek wynikający z toru pomiarowego) po 4-krotnym oversamplingu – powyżej 22 kHz widoczne jest wielokrotne lustrzane odbicie charakterystyki. Oś X: częstotliwość w skali logarytmicznej; oś Y: amplituda w skali względnej, wyrażona w dB.

W procesie odtwarzania sygnał audio musi stać się z powrotem ciągły, bo nasz słuch jest "analogowy". Tym samym "wypalone dziury" pomiędzy kolejnymi próbkami cyfrowymi musimy bardzo umiejętnie wypełnić.

Co więcej, należy dołożyć starań, żeby oryginalne próbki nadal zachowały możliwie jak najmniej zmienioną wartość na wyjściu, bo to, że będą różnice w stosunku do oryginalnego materiału cyfrowego, po finalnej konwersji C/A, jest niestety pewne.

Żeby dokładniej zilustrować problem, z którym musi się zmierzyć to "strażackie" DSP, przyjrzyjmy się problemom w odtworzeniu na wyjściu DAC fali ciągłej z materiału cyfrowego.

W najprostszym przypadku na wyjściu możemy mieć schodki, czyli stałą wartość pomiędzy kolejnymi rzeczywistymi wartościami sygnału audio wystawianymi w CD z częstotliwością 44,1kHz (tzw. metoda sample & hold).

Już na pierwszy rzut oka jest jasne, że takie proste podejście nie doprowadzi do odpowiednio dobrych efektów, dlatego obecnie typowym zabiegiem jest zastosowanie oversamplingu (to samo znaczenie ma w praktyce termin upsampling), czyli dość agresywnej operacji DSP, której celem i efektem jest podwyższenie częstotliwości próbkowania sygnału.

Przy pierwszym zetknięciu z tym tematem może to brzmieć bardzo tajemniczo - czy "magiczne" DSP może zrobić z sygnału np. 44,1 kHz materiał 176,4 kHz ? I tak, i nie.

Owszem, będziemy mieli materiał o 4 razy większej częstotliwości próbkowania, ale informacja użyteczna będzie nadal taka sama, jak była, czyli ograniczona do 22,05 kHz, a zwykle nawet trochę mniej, ze względu na filtry antyaliasingowe po stronie zapisu materiału cyfrowego. Co więcej, powyżej 22 kHz pojawią się silne pasożytnicze zakłócenia.

Ujmując w uproszczeniu: jest to powielenie lub też lustrzane odbicie informacji częstotliwościowej przeniesione na częstotliwości powyżej oryginalnych 22 kHz.

Jest to konsekwencja uzyskania zwielokrotnionej częstotliwości próbkowania przez dość drastyczną operację wstawienia odpowiedniej liczby najzwyklejszych zer pomiędzy kolejne rzeczywiste próbki sygnału. Te zniekształcenia trzeba usunąć, w przeciwnym razie przeniosłyby się na pasmo słyszalne. W tym miejscu pojawia się konieczność umieszczenia w torze sygnału "strażackiego" DPS w postaci specjalnego filtru oversamplingowego.

Filtracja oversamplingowa jest zwykle realizowana jako cyfrowe, dolnoprzepustowe filtry liniowo-fazowe o symetrycznej odpowiedzi impulsowej (tzw. filtry FIR) w układzie scalonym przetwornika DAC. Czyli esencja DSP.

I tutaj pojawia się potencjalnie poważny problem. Jest on związany z zastosowaniem "metody technicznej", czyli filtrów FIR zoptymalizowanych tylko w jednej dziedzinie - częstotliwości - podczas gdy badania dobrze udokumentowały znaczenie dziedziny czasu (odpowiedzi impulsowej).

Rys. 2. Nałożenie charakterystyki częstotliwościowej dolnoprzepustowego filtru oversamplingowego na charakterystykę głośnika po 4-krotnym oversamplingu (przedstawioną na rys. 1). Uwaga – zmieniona (rozciągnięta) skala w osi Y w celu "zmieszczenia" charakterystyki filtra, stąd "spłaszczenie" obrazu charakterystyki głośnika. Oś X: częstotliwość w skali logarytmicznej. Oś Y: amplituda w skali względnej, wyrażona w dB.

Matematyczna teoria, głównie w postaci ograniczenia Heisenberga-Gabora, stwierdza, że nie jest możliwa jednoczesna optymalizacja w dziedzinie czasu i częstotliwości. Pomimo dużego tempa rozwoju techniki cyfrowej, niełatwo poradzimy sobie z tymi ograniczeniami.

Omówione powyżej i pokazane na rys. 2. filtry FIR, stosowane w przetwornikach C/A, charakteryzują się dość precyzyjną filtracją w dziedzinie częstotliwości (ostro nachylone zbocza filtrów) kosztem zwiększonych zafalowań w dziedzinie czasu. W naturze nie ma darmowych obiadów i dotyczy to także, a może szczególnie, audiofilskiego menu.

Z naszej perspektywy ważną kwestią jest, jak w praktyce słyszy się wpływ słabych parametrów w dziedzinie czasu, które cechują "strażackie" filtry oversamplingowe.

Ciekawe analogie do tej kwestii możemy znaleźć na przykład w opiniach osoby z dużym doświadczeniem odsłuchowym – Arta Dudleya ze "Stereophile`a". W wywiadzie dostępnym w sieci bardzo ciekawie identyfikuje największe problemy współczesnego audio.

Z jednej strony wskazuje właśnie na nadmierne, jednostronne przywiązywanie się do parametrów, wynikających z charakterystyki częstotliwościowej; z drugiej - wymienia jako niedoceniane te ważne cechy dźwięku, za które odpowiedzialne są zjawiska czasowe. Najważniejsze z nich to dynamika, uderzenie i namacalność dźwięku.

Ze swojego doświadczenia odsłuchowego i konstruktorskich testów dodałbym soczystą i zróżnicowaną barwę, również związaną z dobrymi parametrami w dziedzinie czasu, nawiązującą zapewne do wspomnianego wrażenia namacalności dźwięku.

Jeżeli zjawiska czasowe, w szczególności wpływ filtrów oversamplingowych, są tak ważne w audio, to nasuwa się naturalna wątpliwość, czy ta kwestia mogła dotychczas zostać zupełnie niezauważona na rynku komercyjnych produktów? Wprawdzie jej znaczenie wciąż nie jest właściwie odzwierciedlone, ale zaczyna być coraz bardziej dostrzegane w ostatnich latach.

Kilka lat temu (2009-2010) miały miejsce dość głośne dyskusje dotyczące filtrów apodyzacyjnych (apodising filters), które zostały wprowadzone do produktów Meridiana i do odtwarzaczy CD Ayre. To rozwiązanie opiera się na specyficznej realizacji filtru oversamplingowego (upsamplingowego), która polega na przeniesieniu całych zafalowań w dziedzinie czasu za główny szczyt impulsu filtru.

W ten sposób zostało zredukowane szczególnie niekorzystne zjawisko, wprowadzane przez klasyczne filtry FIR w DAC-ach, polegające na tzw. pre-dzwonieniu (pre-response), czyli zafalowania w dziedzinie czasu wyprzedzające pojawienie się "zasadnicznego"dźwięku.

Rys. 3. Porównanie klasycznego, symetrycznego filtru FIR (kolor niebieski) z tzw. filtrem MP (ang. Minimum-Phase - minimalno-fazowy, kolor czerwony), w którym całość zafalowań pojawia się za głównym impulsem Oś X: kolejne próbki sygnału na osi czasu. Oś Y: amplituda w skali względnej (odpowiadająca charakterystyce częstotliwościowej filtru pokazanego.

Takie zjawisko jest szczególnie problematyczne odsłuchowo, ponieważ nie występuje w naturze, a więc ucho ludzkie jest na nie bardzo czułe, odbierając je jako coś zupełnie sztucznego. Natomiast zafalowania występujące po głównym impulsie, nawet zbyt długie, zniekształcone itp., mogą wpisywać się w dość naturalne brzmienie.

"Strażacka" funkcja DSP, związana z oversamplingiem, która była tematem tego artykułu, nie wyczerpuje problemu optymalizacji parametrów czasowych (ani charakterystyki częstotliwościowej) całego systemu, ponieważ zniekształcenia w dziedzinie czasu wnoszą również całkowicie analogowe, tradycyjne zespoły głośnikowe (a nawet pojedyncze głośniki – nawet bez zwrotnicy!).

Możliwa jest dalsza optymalizacja aspektów czasowych wykorzystująca tym razem "ulepszacze" DSP, chociaż w ramach zupełnie inaczej zorganizowanego toru, opartego na dynamicznie rozwijającym się obszarze stosunkowo nowych technologii audio. Postaramy się to objaśnić w następnym artykule.

Paweł Piwowarski