Dźwięk

1. Podstawowe pojęcia związane z dźwiękiem (Dźwięk jako zjawisko fizyczne).

2. pasmo akustyczne, częstotliwosć, długosć fali, prędkosć i moc akustyczna.

3. Systemy przestrzennego odtwarzania dźwięku.

4. Formaty plików dźwiękowych.

 

Co to jest dźwięk?

 

Dźwięk – wrażenie słuchowe spowodowane falą akustyczną rozchodzącą się w ośrodku sprężystym (ciele stałym, płynie, gazie). Częstotliwości fal, które są słyszalne dla człowieka, zawarte są w paśmie między wartościami granicznymi od ok. 16-20 Hz do ok. 16-20 kHz.

dźwięki słyszalne

 

Dźwięki słyszalne- Używa się też terminu dźwięki słyszalne – na określenie dźwięków z zakresu częstotliwości i natężeń, które rejestruje człowiek, dla odróżnienia od dźwięków zbyt cichych bądź zbyt niskich (bliskie infradźwięki) lub zbyt wysokich (na pograniczu ultradźwięków), by mogły być zarejestrowane przez ludzkie ucho przeciętnego człowieka.

Człowiek, jak i zwierzęta, odbiera dźwięki słyszalne poprzez zmysł nazywany słuchem, którego narządem są uszy. Natężenie dźwięku można wyrazić w postaci powierzchniowej gęstości mocy fali akustycznej w (W m-2), jednak powszechniejsze i wygodniejsze jest podawanie wartości poziomu natężenia dźwięku, czyli we względnej skali logarytmicznej, której jednostką jest decybel. Jeszcze inną skalą, która uwzględnia fizjologię ludzkiego ucha, jest skala głośności mierzonej w fonach.

Dźwięki słyszalne przez poszczególnych ludzi mogą różnić się zarówno w zakresie częstotliwości, jak i głośności. Regułą jest, że wraz z wiekiem zakres częstotliwości się zawęża (dotyczy to szczególnie częstotliwości wysokich) oraz podnosi się dolna granica poziomu głośności słyszanych dźwięków. Zjawisko niedosłuchu dotyka ostatnio coraz częściej również młodych ludzi, z powodu powszechnego użycia słuchawek dousznych.

Istoty żywe przetwarzają dźwięki w określony sposób. Pierwszy etap to rejestracja wartości ciśnienia w funkcji czasu. Następnie dźwięk jest analizowany - wydzielany jest ton podstawowy (decydujący o słyszanej wysokości dźwięku) i wyższe składowe harmoniczne, których amplitudy decydują o barwie dźwięku. Analiza taka jest możliwa, ponieważ każdą, dowolnie skomplikowaną falę można rozłożyć na składowe sinusoidalne. Z matematycznego punktu widzenia operacja taka nazywa się transformacją Fouriera. Gdy dźwięk składa się z wielu składowych, każdej składowej można przypisać określone parametry — amplitudę, fazę oraz częstotliwość. Następnie uzyskane wartości amplitudy są poddawane logarytmowaniu (zgodnie z Prawem Webera-Fechnera), dzięki czemu słabe dźwięki są tak samo rozróżnialne jak silne. W efekcie mózg uzyskuje strumień danych, który reprezentuje najważniejsze cechy dźwięku (głośność, wysokość, barwę). Człowiek używa tej metody do rozpoznawania mowy mimo występowania silnych zakłóceń (np. rozmowa w tłumie).

Dźwięk muzycznydźwięk wytwarzany przez instrument muzyczny (albo głos ludzki). Najczęściej jest to dźwięk o określonej wysokości.

Podstawowymi cechami dźwięku są:

  • Wysokość dźwięku: zależna od częstotliwości drgań. Ucho ludzkie jest w stanie słyszeć dźwięki z zakresu od ok. 16 - 20 Hz do ok. 16 - 20 kHz. Tak szeroki zakres posiadają jedynie duże organy. Zakres wykorzystywany przez typowe dźwięki muzyczne jest zwykle mniejszy. Awangardowa muzyka współczesna i rockowa posługuje się niekiedy dźwiękami o częstotliwościach spoza tego zakresu, zwykle generowanych przez elektroniczne instrumenty muzyczne.

  • Czas trwania: zależy od czasu, w jakim instrument produkuje dany dźwięk. Dla wielu instrumentów zależy tylko od grającego; w innych jest ograniczony konstrukcją instrumentu.

  • Głośność: zależy od amplitudy drgań powietrza przenoszącego dźwięk.

  • Barwa dźwięku: zależy od ilości i częstotliwości składowych harmonicznych dźwięku.

Podstawowym zestawem dźwięków muzycznych jest skala. W tradycyjnej muzyce europejskiej tworzy ją osiem dźwięków, z których najwyższy jest powtórzeniem najniższego w interwale oktawy. Zakres dźwięków tradycyjnie używanych w muzyce podzielony jest na 10 oktaw. Podstawowym dźwiękiem każdej oktawy jest dźwięk C. Częstotliwości kolejnych dźwięków C są elementami ciągu geometrycznego o ilorazie 2, przy czym najniższemu C odpowiada w przybliżeniu dźwięk o częstotliwość 16 Hz (cykli na sekundę). Jedynym instrumentem mogącym emitować tak niski dźwięk są duże organy.

Każda oktawa zawiera siedem dźwięków diatonicznych, tworzących szereg określany w systemie dur-moll jako gama C-dur. Kolejno są to C, D, E, F, G, A, H (w angielskiej notacji B). Dźwięki posiadają też nazwy solmizacyjne kolejno: do, re, mi, fa, sol, la, si. Ósmy dźwięk gamy, kolejne C, jest zarazem pierwszym dźwiękiem następnej oktawy. Osiem dźwięków występujących w gamie C-dur zwane jest naturalnym szeregiem diatonicznym. Dźwięki te odpowiadają białym klawiszom fortepianu.

Inne przejawy fali akustycznej

Drgania akustyczne, których częstotliwość jest tak mała, że nie są słyszalne nazywamy infradźwiękami (niższe niż 16 Hz), zaś te których częstotliwość jest większa od granicznej, również niesłyszalne, nazywamy ultradźwiękami (wyższe od 20kHz). Dźwięk, jako rozprzestrzeniające się drgania cząsteczek, może rozchodzić się tylko w ośrodku sprężystym jako fala dźwiękowa.

 

Historia rejestracji dźwięku

Pierwszego zapisu dźwięku za pomocą urządzenia zwanego fonografem dokonał w 1877 r. Amerykanin Thomas Alva Edison. Drgająca membrana przechwytywała dźwięki i przekazywała je do igły żłobiącej spiralny rowek w obracającym się wałku pokrytym metalową folią. Ponowne przejście igły wzdłuż wyrytych na wałku rowków umożliwiało wprawienie w ruch innej membrany połączonej z tubą głosową.

Obecnie na podstawie wiedzy o właściwościach słuchu stało się możliwe zaprojektowanie komputerowych formatów rejestracji dźwięku jak MP3, które zapisują muzykę w mniejszej ilości informacji niż format plików WAV. Format ten jest silnie stratny, ale wyeliminowana informacja jest nieistotna, ponieważ nie jest rejestrowana przez ucho przeciętnego człowieka.

Cechy dźwięku

Do podstawowych cech dźwięku możemy zaliczyć:

  • wysokość dźwięku
  • głośność dźwięku
  • czas trwania dźwięku
  • barwa dźwięku

Cechy te związane są ściśle z odpowiednimi parametrami fali akustycznej.

 

Akustyka

 

 Akustyka – dział fizyki i techniki obejmujący zjawiska związane z powstawaniem, propagacją i oddziaływaniem fal akustycznych. Ze względu na różnorodność działów akustyka jest obecnie traktowana jako nauka interdyscyplinarna obejmująca oprócz akustyki ogólnej, zajmującej się zagadnieniami podstawowymi, również szereg działów akustyki stosowanej, zajmujących się praktycznym zastosowaniem zjawisk akustycznych.

Do działów akustyki należą między innymi:

  • akustyka fizyczna dzieląca się z kolei na akustykę liniową i nieliniową, akustykę molekularną i kwantową oraz akustooptykę (optoakustykę).
  • geoakustyka dzieląca się na akustykę podwodną, akustykę morza oraz akustykę atmosferyczną, hydroakustyka zajmująca się propagacją fal akustycznych w wodzie oraz astroakustykę zajmującą się sprężystymi własnościami materii gwiazd, rolą fal akustycznych w procesach powstawania i rozwoju gwiazd oraz procesami wewnątrzgwiazdowymi.
  • akustyka słuchu dzieląca się na psychoakustykę (inaczej akustykę psychologiczną), zajmującą się zjawiskami percepcji dźwięku oraz akustykę fizjologiczną zajmująca się fizjologią układu słuchowego.
  • akustyka foniczna, obejmująca zakres częstotliwości słyszalnych przez człowieka od 20 Hz do 20 - 22 kHz (częstotliwości w przedziale 16-20 Hz są wyczuwane przez człowieka), akustyka ultradźwięków obejmująca częstotliwości większe od słyszalnych oraz akustyka infradźwięków obejmująca częstotliwości mniejsze (od ułamków do kilku herców). Akustykę foniczną można z kolei podzielić na akustykę mowy, akustykę muzyczną, akustykę cybernetyczną, elektroakustykę, akustykę wnętrz dzielącą się z kolei na akustykę architektoniczną i budowlaną, akustykę urbanistyczną oraz akustykę środowiska.
  • akustyka przemysłowa - wibroakustyka.
  • akustyka okrętowa
  • bioakustyka zajmująca się wpływem fal akustycznych na organizmy żywe i akustyka biomedyczna zajmująca się zastosowaniem fal akustycznych w medycynie.
  • elektroakustyka
  • Akustyka kryminalna, której przedmiotem jest analiza sygnałów akustycznych (głównie ich nagrań) na potrzeby sądownictwa. W obrębie zainteresowań akustyki przestępstwa znajdują się między innymi: badania fonoskopijne (patrz: fonoskopia), identyfikacja i autentyzacja mówców, weryfikacja autentyczności nagrań (dobrze znana wszystkim Polakom z afer Oleksego i Rywina) oraz identyfikacja zdarzeń akustycznych zarejestrowanych na nośniku dźwięku.

Badania akustyczne mają szczególne znaczenie w oceanografii, przemyśle fonograficznym, przemyśle maszynowym a zwłaszcza lotniczym (porównaj: defektoskopia) i samochodowym, architekturze, i wielu innych gałęziach gospodarki.

Moc akustyczna źródła dźwięku - całkowita moc fali akustycznej emitowanej przez źródło. Można ją wyznaczyć otaczając źródło dźwięku zamkniętą powierzchnią i sumując strumień mocy akustycznej przez tę powierzchnię. W metodzie tej przyjmuje się, że pochłanianie fali dźwiękowej w ośrodku jest pomijalnie małe lub powierzchnia ściśle otacza źródło. W przypadku powietrza dla niezbyt dużych odległości spełniony jest pierwszy warunek. Jednostką mocy akustycznej jest 1 W.

Nie należy mylić mocy PA akustycznej z mocą źródła dźwięku P. W przypadku głośników sprawność η zdefiniowana wzorem

\eta =\frac{P_{A}}{P}

nie przekracza zwykle kilku procent. Moc głośnika   P = U·I   jest mocą elektryczną dostarczoną do głośnika.

Prędkosć dźwięku

 

Prędkość dźwięku w określonym ośrodku jest prędkością rozchodzenia się w nim zaburzenia mechanicznego.

Prędkość dźwięku w substancjach zależy od prędkości przekazywania kolejnym cząsteczkom tej substancji prędkości cząsteczek zwiększonej ciśnieniem dźwięku. Dla małych natężeń dźwięku ta dodatkowa prędkość jest znacznie mniejsza od prędkości ruchu cieplnego cząsteczek, dlatego prędkość dźwięku nie zależy od jego natężenia.

W powietrzu w temperaturze 15°C przy normalnym ciśnieniu prędkość rozchodzenia się dźwięku jest równa 340,3 m/s ≈ 1225 km/h. Prędkość ta zmienia się przy zmianie parametrów powietrza. Najważniejszym czynnikiem wpływającym na prędkość dźwięku jest temperatura, w niewielkim stopniu ma wpływ wilgotność powietrza; nie zauważa się, zgodnie z przewidywaniami modelu gazu idealnego, wpływu ciśnienia.

Doświadczalna formuła określająca zależność prędkości dźwięku w suchym (wilgotność równa zero) powietrzu dana jest przybliżonym wzorem:

 

gdzie:

  • v\, - prędkość dźwięku,
  • \theta\, - temperatura w stopniach Celsjusza (°C).

Wzór ten jest przybliżeniem wzoru wynikającego z równania gazu doskonałego:

 

 

Prędkość rozchodzenia się dźwięku dla różnych ośrodków:

  • powietrze - 340 m/s
  • rtęć - 1500 m/s
  • woda - 1500 m/s
  • lód - 3300 m/s
  • beton - 3800 m/s
  • stal - 5100 m/s - 6000 m/s
  • szkło - 6000 m/s

Co to są fale dźwiękowe?

 

Fale dźwiękowe to rodzaj fal ciśnienia. Ośrodki, w których mogą się poruszać, to ośrodki sprężyste (ciało stałe, ciecz, gaz). Zaburzenia te polegają na przenoszeniu energii mechanicznej przez drgające cząstki ośrodka (zgęszczenia i rozrzedzenia) bez zmiany ich średniego położenia. Drgania mają kierunek oscylacji zgodny z kierunkiem ruchu fali (są to fale podłużne).

Ze względu na zakres częstotliwości można rozróżnić cztery rodzaje tych fal:

  • infradźwięki - poniżej 16 Hz,
  • dźwięki słyszalne 16 Hz - 20 kHz - słyszy je większość ludzi,
  • ultradźwięki - powyżej 20 kHz,
  • hiperdźwięki - powyżej 1010 Hz.

Dodatkowo ze względu na duże amplitudy i specyficzny ośrodek wyróżnia się fale sejsmiczne, drgania rozchodzące się w litosferze Ziemi.

Prędkości rozchodzenia się fal dźwiękowych w niektórych ośrodkach:

 

Systemy przestrzennego odtwarzania dźwięku

 

System „dźwięku przestrzennego” opiera się na stwierdzeniu, że w każdej oryginalnej audycji w pomieszczeniu zamkniętym występują odbicia fal dźwiękowych od ścian. Słuchacz w tym pomieszczeniu słyszy oprócz fal bezpośrednich także fale odbite docierające ze wszystkich stron.

            W systemach stereofonii wielokanałowej stosuje się więcej niż dwa kanały odsłuchowe. Otacza się słuchacza systemami głośnikowymi tworząc w ten sposób sztuczne wrażenie efektu przestrzenności. Dźwięk bezpośredni dochodzi do słuchacza z każdej strony, a nie jak to jest w systemie stereofonii dwukanałowej tylko z głośnika lewego i prawego.

            W kinematografii istnieje potrzeba uzyskania pewnych efektów przestrzenno-dźwiękowych, które pomagają w uzyskaniu określonych zamierzeń artystycznych. Wraz z rozwojem techniki dźwięk wielokanałowy trafił do domów i od tego czasu stał się rywalem dla dźwięku stereofonicznego.

            W systemach stereofonii dwukanałowej wrażenie kierunkowego rozmieszczenia źródeł dźwięku uzyskuje się umieszczając przed słuchaczem dwa, odpowiednio rozsunięte głośniki. Słuchacz słyszy poszczególne źródła z różnych kierunków przestrzeni od głośnika lewego do prawego. W celu uzyskania wrażenia kierunkowości, głośniki należy zasilać odpowiednimi sygnałami. Mogą się one różnić między sobą fazą (stereofonia fazowa) lub natężeniem (stereofonia natężeniowa), albo jednym i drugim (stereofonia natężeniowo-fazowa).Gdy oba kanały zasilane są takimi samymi sygnałami, słuchacz odnosi wrażenie, że dźwięk wydobywa się z pozornego źródła umieszczonego w środku między głośnikami. W zależności od różnicy faz lub natężeń źródło pozorne przemieszcza się na linii prostej łączącej środki promieniowania głośników.

            W technikach dźwięku dookólnego dokonuje się rejestracji i transmisji w czterech kanałach, dlatego wszystkie zależności fazowe niosące informacje o przestrzenności są tu zafałszowane. Musi być zachowana kompatybilność ze standardem stereofonii dwukanałowej, więc cztery sygnały są zamieniane na sygnały dwóch kanałów przednich: lewego i prawego. Z kolei, do tych sygnałów dodawany jest sygnał kanału środkowego oraz szum symulujący otoczenie. Przy odtwarzaniu te złożone sygnały podawane są do dekodera dźwięku przestrzennego, gdzie następuje proces odwrotny, a w jego wyniku otrzymywane są cztery sygnały. W klasycznej stereofonii funkcję dekodera pełni umysł ludzki, który sam dekoduje i umiejscawia poszczególne pozorne źródła dźwięku.

Formaty plików dźwiękowych

CD-Audio 

CD-Audio to standard cyfrowego zapisu dźwięku na płycie kompaktowej, wykorzystujący do tego celu kodowanie PCM o częstotliwości próbkowania 44,1 kHz i rozdzielczości 16 bitów na próbkę.

MIDI

 

 

Plik formatu MIDI (Musical Instruments Digital Interface) ze względu na małe rozmiary plików jest często wykorzystywany do tworzenia podkładu muzycznego dla stron WWW, automatycznie odtwarzanego podczas jej oglądania w przeglądarce (poprzez użycie znacznika i odpowiedniej wtyczki). Plik w tym formacie charakteryzuje się małym rozmiarem - kilkuminutowy utwór muzyczny może być zawarty w pliku o rozmiarze 30-40 kB, w efekcie wczytanie takiego pliku nie zwiększa ogólnego czasu ładowania całej strony.

Mały rozmiar możliwy jest dzięki oparciu na innej zasadzie niż w przypadku pozostałych formatów dźwiękowych: plik nie zawiera spróbkowanego dźwięku, lecz specyficzny rodzaj zapisu nutowego danego utworu.

Standard MIDI opracowany został pierwotnie dla komunikowania się ze sobą elektronicznych instrumentów muzycznych; plik w tym formacie składa się z wielu tzw. ścieżek, z których każda odpowiada brzmieniu określonego instrumentu. Każda ścieżka zawiera szereg tzw. komunikatów MIDI, nakazujących w określonym momencie (każdy komunikat opatrzony jest kodem czasowym) zagrać dźwięk o określonej wysokości i czasie trwania, zmienić głośność danej ścieżki, zmienić tempo itd. Karta dźwiękowa odtwarza takie pliki wykorzystując brzmienia swojego wewnętrznego syntezatora zamiast reprodukować nagrany wcześniej oryginał. Plik taki może zawierać jedynie "czystą" muzykę - niemożliwe jest zawarcie w nim np. śpiewu, mowy czy efektów dźwiękowych (innych niż przewidziane w standardzie MIDI); do tego wszystkiego potrzebne byłoby wykorzystanie dźwięku spróbkowanego.

Konsekwencją założeń MIDI jest rzecz jasna fakt, że ten sam plik będzie brzmiał różnie na różnych kartach dźwiękowych. Najlepszą jakość dźwięku uzyskamy na kartach z tzw. syntezą wavetable, gdzie syntezator wykorzystuje zapisane w pamięci karty próbki dźwięku autentycznych instrumentów muzycznych, znacznie gorsze brzmienie (typowo "syntezatorowe") - na kartach ze "zwykłą" syntezą FM, gdzie dźwięki uzyskuje się poprzez składanie drgań o odpowiednio dobranych częstotliwościach (posiadacze tych ostatnich kart mogą natomiast wykorzystać odtwarzacze plików MIDI realizujące programową syntezę wavetable, jak np. TiMidity). Twórca pliku MIDI nie jest w stanie z góry przewidzieć, jak będzie brzmiało jego dzieło - może to określić jedynie w przybliżeniu.

Obecnie karty dźwiękowe korzystają z tabeli wavetable ładowanej do pamięci RAM komputera. Tabela wavetable może być instalowana wraz ze sterownikami karty dźwiękowej i wtedy można wybrać we właściwościach sterownika jej rozmiar, typowo 2, 4 lub 8 MB. Inną możliwością jest skorzystanie z gotowej tabeli instalowanej przez system Windows XP zawartej w pliku C:\Windows\System32\drivers\gm.dls o rozmiarze 3.28 MB. Rozwiązanie to wymaga dużej mocy obliczeniowej procesora, co obecnie nie jest problemem choć było w przeszłości, stąd wcześniejsze rozwiązanie polegające na wbudowaniu tabeli wavetable w kartę dźwiękową.

Rozszerzenia: *.MID, *.MIDI, *.RMI

Przed erą empetrójek powstały pliki MOD, które korzystają z próbek dźwięku zawartych w samym pliku. Drugą ich część stanowi zapis komunikatów podobny do MIDI. Gdyby nie rozwój mp3, mogłyby być obecnie dużo popularniejsze.

WAV 

Format charakterystyczny dla platformy Windows, pozwala na zapis muzyki z jakością płyty kompaktowej (44.1 kHz, 16 bit, stereo). Pliki w tym formacie mają jednak jedną zasadniczą wadę - wielkość. Na 1 sekundę dźwięku potrzeba 172 kB. Z tego właśnie powodu format ten nie bardzo nadaje się do Internetu. Aby zmniejszyć objętość należy niestety zrezygnować z jakości, i tak można: zmniejszyć rozdzielczość do 8 bitów, zrezygnować z dźwięku stereo i zmniejszyć częstotliwość próbkowania np. do 22050 Hz lub nawet do 8000 Hz. Sekunda pliku zapisanego z minimalnymi ustawieniami (8 bit, mono, 8000 Hz) zajmuje 8 kB.

Aby nagrać dźwięk w formacie WAV pod Windows można posłużyć się systemowym rejestratorem dźwięku lub skorzystać z bardziej zaawansowanych programów jak np. Cool Edit.

Ścieżki skopiowane z audio CD daje się zapisać w tym formacie za pomocą programów zwanych ripper.

 

AIF, AIFF, AIFC, AIFR

Format popularny niegdyś na Macintoshach, obecnie rozpowszechniony również na pecetach. Pliki AIFF nie są kompresowane, chociaż istnieje format AIFF-C, który umożliwia kompresję nawet w stopniu 6:1.

Windows Media Player, QuickTime Player, DeliPlayer

MP2, MPG, MPE, MPEG, MPEG2 

Pliki o dużym stopniu kompresji, poprzednicy standardu MP3. Zapis muzyki w tym formacie łączy się ze stratami jakości. Pliki o takich rozszerzeniach mogą zawierać także filmy komputerowe.

Windows Media Player, Deli Player, Winamp

MP3 

Format wykorzystujący standard kompresji MPEG-1 Audio Layer 3.

Grupa Motion Picture Expert Group przy współpracy z Instytutem Frauenhofera z niemieckiego Erlangen, stworzyła algorytm kompresji i zapisu plików multimedialnych, ze szczególnym naciskiem na obraz (format MPEG). Jednak format ten można było wykorzystać również do zapisu audio i tak powstał format MP3. Największą zaletą tego zapisu jest możliwość skompresowania pliku typu WAV do MP3 nawet 12,13-krotnie, czyli dużo bardziej niż przy pomocy popularnych programów kompresujących (ZIP, RAR, ARJ).

Jakość bliska CD wymaga strumienia 128 Kbitów/sek, około 1 MB/minutę, spotykane zakresy od kilkunastu Kb/s (mowa, wiadomości strumieniowo, monofonicznie) do 320 Kb/s (wysoka jakość), stereofoniczne. Kodowanie VBR (Variable Bit Rate) daje nieco lepszą jakość przy tej samej wielkości plików.

Na popularność MP3 wpływa przede wszystkim wysoki stopień kompresji danych dźwiękowych, dzięki czemu pliki w tym formacie mają stosunkowo niewielkie rozmiary przy jednoczesnej wysokiej jakości brzmienia.

Pliki MP3 można odtwarzać przy pomocy różnych programów komputerowych (na przykład Winampa dla systemów Microsoft Windows, Macamp dla Macintosha, XMMS dla systemów uniksowych), natomiast do ich tworzenia służy na przykład program MP3 Compressor. Niektóre discmany potrafią odtwarzać płyty CD-R i CD-RW zawierające pliki MP3.

Mp3Pro 

 

 

Technologia opracowana przez szwedzką firmę Coding Technologies, a licencjonowana przez Thomson Multimedia. W założeniach miała ona całkowicie zastąpić bardzo popularny format MP3.

Nowa technologia, w której powstał Mp3Pro, pozwala na zmniejszenie objętości plików dźwiękowych nawet o 50% w porównaniu z MP3. Utwór zakodowany w MP3Pro z gęstością 64 kb/s odpowiada teoretycznie jakością utworowi MP3 zakodowanemu z gęstością 128 kb/s. W praktyce jakość tych plików jest wyższa, gdyż MP3Pro nie usuwa dźwięków o najwyższych częstotliwościach, jak to robi MP3. Zmniejszenie wielkości plików ma przede wszystkim zaspokoić potrzeby użytkowników Internetu - o wiele łatwiej przesyłać je pocztą elektroniczną. Ponadto pozwala to na zmieszczenie dwukrotnie większej liczby plików w pamięci przenośnych odtwarzaczy. MP3Pro jest w pełni kompatybilne jedynie z odtwarzaczami MP3 produkowanymi przez firmę Thomson, przez co format ten jest mało rozpowszechniony. Opłaty za korzystanie z nowego formatu są niewiele wyższe niż za "zwykłe" MP3.

Do konwersji na format Mp3Pro przydatne są programy Adobe Audition, Nero Wave Editor oraz darmowy Thomson mp3Pro audio player.

MP4 

Koder o nazwie MP4 to swego rodzaju oszustwo (tak zwane zatargi o prawa autorskie). Format ten oparty jest na technologii MPEG-4 i standardzie AAC, lecz stanowi zastrzeżone rozwiązanie firmowe. Twórca formatu MP4, firma Global Music One, zdecydował się nazwać swoje dzieło w taki sposób licząc zapewne na "podczepienie się" pod ewentualny sukces formatu MPEG-4.

Format zapewniający wysoką jakość i dobrą kompresję. Każdy plik MP4 zawiera w sobie odtwarzacz, więc użytkownik nie musi posiadać programu obsługującego ten format. Pliki MP4 ?opakowane w format DAP (Digital Audio Postcard, czyli cyfrowa pocztówka dźwiękowa) mogą być rozprowadzane za darmo przez właściciela praw autorskich i przekazywane dalej przez użytkowników.

Pliki takie mogą zawierać łącza do witryn internetowych udostępniających dodatkowe informacje lub umożliwiających zakup albumu. Pomimo swoich zalet, format DAP nie rozpowszechnia się zbyt szybko. Firma Global Music, wraz z kilkoma wytwórniami, które do niej dołączyły, regularnie publikuje nowe utwory w formacie MP4, jednak działalność ta ma stosunkowo ograniczony zakres, a liczba dostępnych utworów MP4 jest praktycznie niezauważalna w stosunku do liczby legalnych i nielegalnych plików w formacie MP3 i innych.

Wielu uważa, że Global Music, poprzez zawłaszczenie nazwy nowo powstającego, otwartego standardu, postąpiła nieuczciwie. W ten sposób naraziła się na krytykę ze strony użytkowników innych formatów. Otwarte standardy, takie jak MPEG-4, zapewniają w pewnej mierze możliwość przenośności i współpracy różnych rozwiązań, zaś standardy zamknięte mają za zadanie jedynie opanować fragment rynku, przynosząc zysk pojedynczej firmie. Udostępnione w Internecie zamknięte rozwiązanie nie cieszą się więc wielkim zainteresowaniem. Poza tym, Global Music jak na razie woli współpracować bezpośrednio z wytwórniami i dotychczas nie udostępniła wersji kodera przeznaczonej dla zwykłych użytkowników. Powyższe cechy formatu MP4 przesądzają o jego przegranej w rywalizacji z MP3.

Ogg Vorbis 

Ogg i Vorbis to odpowiednio kontener multimedialny i stratny kodek audio stworzone i popularyzowane przez fundację Xiph.org, format jest rozprowadzony na zasadach FLOSS i nie jest ograniczony patentami. Pliki mają zazwyczaj końcówkę .ogg, co stało się źródłem pewnych nieporozumień. Zapewniany stosunek jakości dźwięku do objętości wynikowego pliku jest zazwyczaj lepszy od tego, co oferuje MP3, kosztem jednak większych wymagań podczas odtwarzania. Jest praktycznie domyślnym formatem audio dla większości dystrybucji Linuksa, aczkolwiek jest też wspierany przez wiele sprzętowych i programowych odtwarzaczy na inne platformy. Mimo wszystko nie znalazł szerszego zastosowania w radiach internetowych, jak i sklepach on-line.

QuickTime Audio 

Pomimo długiej obecności na rynku QuickTime nie zdobył większej popularności jako format rozpowszechniania plików dźwiękowych. Co więcej, niewielu użytkowników wie, iż formatu QuickTime można używać także do tworzenia plików zawierających wyłącznie dźwięk. Z tego względu w Internecie bardzo ciężko znaleźć takie pliki. Wynika to zapewne z faktu, iż system ten nie oferuje możliwości ripowania płyt CDAudio, co utrudnia tworzenie plików dźwiękowych.

  • .qt

W takiej sytuacji warto jedynie wspomnieć, że do kompresji dźwięku użyto kodera QDesign, który charakteryzuje się bardzo dobrym współczynnikiem kompresji.

RealAudio

Format RealAudio został przedstawiony w 1995 roku przez firmę RealNetworks specjalnie z myślą o Internecie. Obecnie jest on standardem strumieniowego przesyłania dźwięku przez Internet. Do odbioru jego zawartości wystarczy modem 28,8 Kbps, ale możliwe jest także przesyłanie dźwięku o bardzo wysokiej jakości dla odpowiednio szybkich łącz.


Przy odpowiednim oprogramowaniu system RealAudio pozwala na nadawanie audycji na żywo. Jakość dźwięku zależy głównie od możliwości naszego modemu i łącza. Kłopoty te można jednak ominąć wybierając podczas zapisu pliku Real Audio docelową prędkość transmisji. RealSystem G2, ma możliwość przesyłania również plików w innych formatach.

Obecne wersje kodera Real mogą generować pliki o wysokiej jakości przy praktycznie wszystkich gęstościach strumienia bitowego a jakość porównywalna z radiem FM osiągalna jest już przy gęstości 20 do 34 kb/s (przy wyższych gęstościach strumienia bitowego dokładne testy wykazują niewielkie zniekształcenia wysokich tonów).

Poza wysoką jakością kompresji, koder Real charakteryzuje się dużą szybkością działania. Być może jednym z najważniejszych powodów, dla których produkt firmy Real nie osiągnął popularności MP3, jest fakt, iż MP3 postrzegany jest głównie jako format plikowy, umożliwiający tworzenie i przechowywanie kolekcji utworów, podczas gdy Real kształtował swój obraz jako firmy zajmującej się głównie transmisją strumieniową.

Pliki RealAudio o jakości podobnej do MP3 są mniejsze i od razu gotowe do transmisji strumieniowej, jednak koszt oprogramowania serwera jest zbyt duży dla przeciętnego użytkownika co czyni tę cechę nieistotną.

Pliki *.ra *.rm możemy udostępnić do pobrania zamieszczając odsyłacz bezpośrednio do niego na stronie WWW. Poza innym formatem pliku, sytuacja ta nie różni się niczym od występującej w przypadku plików WAV czy MP3 - plik zostanie pobrany przez przeglądarkę na dysk, a następnie odtworzony przez odtwarzacz RealPlayer.

Możemy jednak go także strumieniować - wówczas na stronie umieścimy tylko odsyłacz do metapliku (tradycyjnie metapliki RealMedia mają rozszerzenie *.ram), a w metapliku wpiszemy adres właściwego pliku *.rm. RealPlayer będzie wówczas odtwarzał plik w miarę pobierania danych z sieci.

WMA (Windows Media Audio) 

Windows Media Audio został stworzony przez firmę Microsoft.

Użytkownicy zauważyli, że o ile WMA znakomicie radzi sobie z kompresją muzyki, to kompresja nagranej mowy pozostawia wiele do życzenia. Wprawdzie wiele z tych wad wyeliminowano lub chociaż poprawiono w najnowszej wersji kodeka Windows Media Audio 8 ale jakościowo nadal ustępuje on MP3.

Zgodnie z zapewnieniem producenta funkcja kodowania Windows Media Audio 8 dostarcza dźwięk o jakości jak z płyty CD i rozmiarze dwukrotnie mniejszym niż pliki w formacie MP3, dzięki czemu podwaja ilość miejsca przeznaczonego na przechowywanie muzyki i skraca czas pobierania muzyki cyfrowej o jakości płyt CD.

Atutem tego standardu jest strumieniowa obsługa plików i łatwa integracja ze środowiskiem XML. Najczęściej dane zakodowane za pomocą WMA umieszcza się w kontenerze ASF.

Beatnik 

Beatnik, firmy Headspace, obsługuje format RMF, czyli Rich Music Format. Jest to zaawansowana technika, pozwalająca uzyskać bardzo bogate brzmienie, przy niewielkiej objętości pliku.

Liquid Audio 

To szyfrowany format plików muzycznych zaproponowany przez wytwórnię EMI. Standard ten, jak twierdzą twórcy, ma zabezpieczać utwór przed nielegalnym kopiowaniem. Aktualnie format jest na dobrej drodze do sukcesu - w Internecie istnieje już firmowy sklep Liquid, w którym można kupić wybrane utwory, a niektórych posłuchać bezpłatnie.

Jakością jest zbliżony do mp3, a wielkie koncerny typu BMG Entertainment czy Universal Music skłaniają się do sprzedaży utworów swoich artystów właśnie w Liquid Audio.

Aby móc skorzystać z tej oferty, trzeba zaopatrzyć się w firmowy odtwarzacz Liquid Player i zarejestrować się na stronie producenta.

a2bmusic

Firma AT&T Labs sprzedaje muzykę w formacie a2bmusic. Tak jak w Liquid Audio dźwięk przesyłany poprzez sieć jest zaszyfrowany, co ma uniemożliwić nielegalne kopiowanie, jakość zaś dźwięku jest porównywalna z muzyką z płyt CD. Sam plik a2bmusic zajmuje mniej miejsca niż mp3. Przy zakupie utworu dostaje się także okładkę płyty i teksty. Dotychczas w tym formacie wydanych zostało kilkaset utworów.