聲音數位化－拾人牙慧

從網路找到的一篇相當好的教材 - 影音處理，可以認識聲音，還能瞭解如何將聲音數位化。

認識聲音

聲音的產生是來自於物體的振動，不同的物體振動會產生不同的音色，例如人聲是由聲帶的振動所產生、鼓聲是由鼓面的振動所產生、吉他聲是由吉他弦的振動所產生…等。

聲音包含響度、音調及音色 3 要素，分別說明如下：

響度

是指聲音的強弱，計量單位為分貝(dB)；響度與聲波的振幅有關，振幅越大響度越強。我們在一般環境中所聽到的聲音音量大約介於 0〜120 分貝間，音量每上升 10 分貝，響度會增強 10 倍。

音調

是指聲音的高低，計量單位為赫茲(Hz)；音調與聲波振動的頻率有關，頻率越高音調越高。人耳可以聽到的頻率大約在 20Hz〜20,000Hz 之間。
超過 20,000Hz 的聲音稱為超音波(Ultrasound)，蝙蝠、海豚可發出超音波；低於 20Hz 的聲音稱為次音波(Infrasound)，大象、長頸鹿可發出次音波，這些聲音都是人耳聽不見的。

音色

是指聲音的特色，音色與聲波的波形有關；我們之所以能夠辨別不同人或不同樂器所發出的聲音，是因為每一個人或每種樂器的音色有所不同。

大自然中的聲音與人類發出的聲音都是一種類比訊號，我們必須透過以下將介紹的取樣及量化兩個步驟，將類比訊號轉換成數位訊號，才能將聲音儲存在電腦中，以便進行播放、剪輯或合成等編修工作。

聲音數位化

聲音的數位化－取樣

聲音的取樣是將聲波切割成相等時間間隔的樣本，並加以擷取與儲存。每秒取樣的次數，稱為取樣頻率(sampling rate)，例如 MP3 檔的取樣頻率為 44,100Hz，代表每秒取樣 44,100 次。取樣頻率越高，數位化後的聲音與原來的聲音越接近；取樣頻率越低，數位化後的聲音失真越嚴重。

聲音的數位化－量化

聲音的量化是將樣本振幅高度切割成相等間隔，再以特定的位元數來記錄代表振幅高度的數值，這個特定的位元數，稱為樣本大小(或量化解析度)。當樣本大小為 3 位元時，最多只能記錄 8(2³)種變化，無法將聲音細膩的部分精準地呈現出來；若樣本大小為 16 位元，則可記錄高達 65,536(2¹⁶)種變化。可見樣本大小越大，越能讓聲音接近原音重現，樣本大小越小，聲音失真的情況就會越嚴重。

下面我們看到幾個數位聲音檔的規格：

取樣頻率：即每秒所切割的片段數，單位為 Hz 或 KHz。
樣本大小：即每個片段聲波的振幅所佔用的空間大小，單位為 bits，有 8 bits、16 bits、24bits、32bits等，目前以 16 bits 為主。
聲道：分成單音(Mono)及立體聲(Stereo, 兩聲道)。

要計算一個未壓縮的聲音檔大小，可以用下面公式來計算：
檔案大小＝取樣頻率 × 樣本大小 × 聲道數 × 秒數

常用的錄音格式有三種音質，分別是：電話音質(11025Hz, 8bits, Mono)、收音機音質(22050Hz, 8bits, Mono)、CD音質(44100Hz, 16bits, Stereo)。我們先算一下以電話音質來錄音一分鐘，需要多少容量：

11025 × 1 × 1 × 60 = 661500(Bytes) ÷ 1024 ＝ 646(KB)

Reference

影音處理
聲音數位化

文字內容或影像內容部份參考、引用自網路，如有侵權，請告知，謝謝。