如今到處都可以聽到錄制的聲音,我們幾乎不會(huì)刻意想到它們。這些聲音從智能手機(jī)、智能音箱、電視、收音機(jī)、光盤播放機(jī)和汽車音響系統(tǒng)傾瀉而出,持久而愉快地出現(xiàn)在我們的生活中。2017年,尼爾森市場調(diào)研公司的一項(xiàng)調(diào)查顯示,約90%的美國人經(jīng)常聽音樂,每周平均聽32個(gè)小時(shí)。?在這自由流暢的愉悅背后,龐大的產(chǎn)業(yè)推動(dòng)技術(shù)實(shí)現(xiàn)長遠(yuǎn)的目標(biāo):最大可能真實(shí)地再現(xiàn)聲音。從19世紀(jì)80年代愛迪生的留聲機(jī)和喇叭揚(yáng)聲器開始,一代又一代工程師追求這一理想,發(fā)明和開發(fā)了無數(shù)項(xiàng)技術(shù):真空三極管、電動(dòng)式揚(yáng)聲器、盒式磁帶留聲機(jī)、數(shù)十種不同拓?fù)浣Y(jié)構(gòu)的固態(tài)放大器電路、靜電揚(yáng)聲器、光盤、立體聲音響和環(huán)繞立體聲音響。在過去的50年里,音頻壓縮和流媒體等數(shù)字技術(shù)改變了音樂產(chǎn)業(yè)。
? 然而,即使是現(xiàn)在,經(jīng)過150年的發(fā)展,我們從高端音頻系統(tǒng)中聽到的聲音,也遠(yuǎn)遠(yuǎn)不及音樂表演現(xiàn)場聽到的聲音。在這樣的演出現(xiàn)場,我們處于一個(gè)自然的聲場中,可以很容易地感覺到來自不同位置、不同樂器的聲音,即使聲場有多種樂器的混合聲音交織在一起。人們支付大價(jià)錢去現(xiàn)場聽音樂是有原因的:現(xiàn)場音樂更令人愉悅、更令人興奮,并且可以產(chǎn)生更大的情緒感染力。?如今,研究人員、公司和企業(yè)家,包括我們公司,終于接近實(shí)現(xiàn)真實(shí)重建聲場進(jìn)而記錄音頻的目標(biāo)了。其中包括蘋果和索尼這樣的大公司,以及Creative這樣的小公司。奈飛最近披露了與Sennheiser的合作,在網(wǎng)絡(luò)中開始使用一種新系統(tǒng),即Ambeo 2-Channel Spatial Audio,提高《怪奇物語》和《巫師》等電視劇的聲音真實(shí)感。 目前,至少有6種不同的方法可以制作高逼真的音頻(見插圖“音頻分類”)。我們使用術(shù)語“音場”(soundstage)來區(qū)別我們的成果與其他音頻格式,例如空間音頻或沉浸式音頻。與普通立體聲相比,這些音頻可以呈現(xiàn)出更多的空間效果,但它們通常不包含再現(xiàn)真正令人信服的聲場所需的詳細(xì)音源位置提示。 我們相信,音場是音樂錄制和再現(xiàn)的未來。但在這場大規(guī)模革命發(fā)生之前,我們必須克服一個(gè)巨大的障礙:如何方便、廉價(jià)地轉(zhuǎn)換現(xiàn)有不計(jì)其數(shù)的錄音,無論它們是單聲道、立體聲還是多通路環(huán)繞聲(5.1、7.1等)。沒有人確切地知道錄制了多少首歌曲,但根據(jù)Gracenote的娛樂元數(shù)據(jù),目前地球上有超過2億首錄制歌曲??紤]到一首歌曲的平均時(shí)長約為3分鐘,這相當(dāng)于音樂時(shí)長約為1100年。 音樂的數(shù)量是龐大的。任何推廣一種新音頻格式(無論它是多么有前途)的嘗試都注定要失敗,除非它包含一種技術(shù),使我們能夠輕松、方便地收聽所有這些現(xiàn)有音頻,就像我們現(xiàn)在在家里、海灘上、火車上或汽車內(nèi)聽立體聲音樂一樣。?
我們已經(jīng)開發(fā)了這樣一種技術(shù),稱為3D音場。該系統(tǒng)可在智能手機(jī)、普通或智能音箱、頭戴式耳機(jī)、耳塞、筆記本電腦、電視、條形音箱和車內(nèi)播放音場音樂。它不僅可以將單聲道和立體聲錄音轉(zhuǎn)換為音場,還允許未經(jīng)特殊訓(xùn)練的聽眾根據(jù)自己的喜好,使用圖形用戶界面重新配置聲場(sound field)。例如,聽眾可以指定每個(gè)樂器和聲樂源的位置,并調(diào)整各自的音量,改變相對音量,例如伴奏樂器與人聲樂的對比。該系統(tǒng)在這里應(yīng)用了人工智能(AI)、虛擬現(xiàn)實(shí)和數(shù)字信號(hào)處理(稍后將詳細(xì)介紹)。
?
要用兩個(gè)小揚(yáng)聲器(比如一副頭戴式耳機(jī))令人信服地再現(xiàn)弦樂四重奏等聲音,需要大量的技術(shù)技巧。要了解這是如何做到的,還要從感知聲音的方式說起。 當(dāng)聲音傳到耳朵時(shí),你頭部的特征,包括物理形狀、外耳和內(nèi)耳的形狀,甚至是鼻腔的形狀等,都會(huì)改變原始聲音的音頻頻譜。此外,一個(gè)聲源傳送到兩只耳朵的時(shí)間也有非常細(xì)微的差別。通過這種頻譜變化和時(shí)間差,大腦可以感知聲源的位置。頻譜變化和時(shí)間差可以根據(jù)頭部相關(guān)傳遞函數(shù)(HRTF)進(jìn)行數(shù)學(xué)建模。在頭部周圍三維空間的每個(gè)點(diǎn)都有一對HRTF,一個(gè)用于左耳,另一個(gè)用于右耳(見插圖“測定HRTF”)。 因此,使用一對HRTF來處理一段給定的音頻,一個(gè)用于右耳,另一個(gè)用于左耳。為了重現(xiàn)最初的體驗(yàn),我們需要考慮聲源相對于錄制麥克風(fēng)的位置。然后播放處理過的音頻,例如通過一副頭戴式耳機(jī),聽眾將聽到音頻中帶有原始提示,感覺到聲音來自最初錄制的方向。 如果沒有原始位置信息,我們可以簡單地指定每個(gè)音源的位置,并獲得基本相同的體驗(yàn)。聽眾不太可能注意到表演者位置的細(xì)微變化,事實(shí)上,他們可能更喜歡自己的配置。 許多商業(yè)化的應(yīng)用程序都使用HRTF為使用頭戴式耳機(jī)和耳塞的聽眾創(chuàng)建空間音響。蘋果公司的Spa-tialize Stereo就是一個(gè)例子。這項(xiàng)技術(shù)將HRTF應(yīng)用于播放音頻,令人感受到空間音效,即比普通立體聲更逼真的更深層次的聲場。蘋果公司還提供了一個(gè)頭部追蹤器版本,使用iPhone和AirPods上的傳感器跟蹤頭部(AirPods)和iPhone之間的相對方向。然后,使用與iPhone方向相關(guān)聯(lián)的HRTF生成空間音頻,使人感覺是自己聽到的是來自iPhone的聲音。這不是我們所說的音場音頻,因?yàn)闃菲鞯穆曇羧匀换旌显谝黄?。例如,你感覺不到小提琴手在中提琴手左邊。
? 不過蘋果公司確實(shí)有一款產(chǎn)品試圖提供音場音頻:蘋果Spatial Audio。我們認(rèn)為,與普通立體聲相比,這是一個(gè)顯著的改進(jìn),但仍然有一些問題需要解決。首先,它結(jié)合了杜比全景聲,這是杜比實(shí)驗(yàn)室開發(fā)的一種環(huán)繞聲技術(shù)。Spatial Audio使用一組HRTF為頭戴式耳機(jī)及耳塞創(chuàng)建空間音頻。但是,采用杜比全景聲意味著,要使用這項(xiàng)技術(shù),所有現(xiàn)有立體聲音樂必須重新灌錄,而重新灌錄數(shù)百萬單聲道和立體聲歌曲幾乎是不可能的。Spatial Audio的另一個(gè)問題是,它只支持頭戴式耳機(jī)或耳塞,而不支持揚(yáng)聲器。因此,那些喜歡在家里和車?yán)锫犚魳返娜藷o法獲益。 ?
?
那么我們的系統(tǒng)是如何實(shí)現(xiàn)逼真的音場音頻的呢?我們首先使用機(jī)器學(xué)習(xí)軟件將音頻分解成多個(gè)單獨(dú)的音軌,每個(gè)音軌代表一種或一組樂器/歌手。這種分離過程稱為混音(upmixing)。一個(gè)制作人,甚至是未經(jīng)特殊訓(xùn)練的聽眾都可以將多個(gè)音軌重新組合,重建和個(gè)性化所需的聲場。
? 假設(shè)要處理的是一首四重奏,音樂由吉他、貝司、鼓和人聲組成,聽眾可以根據(jù)個(gè)人喜好決定表演者的位置并調(diào)整音量;可以使用觸摸屏安排聲源和聽眾在聲場的虛擬位置,實(shí)現(xiàn)滿意的配置效果。圖形用戶界面顯示一個(gè)舞臺(tái)的形狀,上面覆蓋著指示音源的圖標(biāo),包括人聲、鼓、貝司、吉他等。中間有一個(gè)頭部圖標(biāo),表示聽眾的位置。聽眾可以根據(jù)自己的喜好,觸摸并拖動(dòng)頭部圖標(biāo)來更改聲場。 將頭部圖標(biāo)靠近鼓時(shí),鼓聲會(huì)更突出。如果聽眾將頭部圖標(biāo)移動(dòng)到表示一個(gè)樂器或一位歌手的圖標(biāo),聽眾將聽到表演者的獨(dú)奏(唱)。重點(diǎn)是允許聽眾重新配置聲場,3D音場為音樂欣賞增加了新維度(如有不當(dāng),請多包涵)。 如果你想通過頭戴式耳機(jī)或普通的左右聲道系統(tǒng)收聽音頻,轉(zhuǎn)換后的音場音頻可以有兩個(gè)聲道;如果你想在多揚(yáng)聲器系統(tǒng)上播放,它還可以是多聲道的。在后一種情況下,可以由2個(gè)、4個(gè)或更多揚(yáng)聲器創(chuàng)建音場。重建聲場中不同音源的數(shù)量甚至可能大于揚(yáng)聲器的數(shù)量。 這種多聲道方法與普通的5.1和7.1環(huán)繞聲道不同。5.1和7.1環(huán)繞聲道通常有5或7個(gè)單獨(dú)的頻道,每個(gè)頻道都有一個(gè)揚(yáng)聲器,外加一個(gè)低音炮(即數(shù)字5和7后的“.1”)。多揚(yáng)聲器創(chuàng)建的聲場比標(biāo)準(zhǔn)的雙揚(yáng)聲器立體聲設(shè)備更具沉浸感,但它們?nèi)赃_(dá)不到真正的音場錄制所能帶來的真實(shí)感。當(dāng)通過此多聲道設(shè)備播放時(shí),我們的3D音場錄音會(huì)繞過5.1、7.1或任何其他特殊音頻格式,包括多音軌音頻壓縮標(biāo)準(zhǔn)格式。
? 簡單介紹一下這些標(biāo)準(zhǔn)格式。為了更好地處理數(shù)據(jù),改進(jìn)環(huán)繞聲和沉浸式音頻應(yīng)用,最近一系列新標(biāo)準(zhǔn)推出,包括沉浸式空間音頻的空間音頻對象編碼(SAOC)和MPEG-H 3D音頻標(biāo)準(zhǔn)。這些新標(biāo)準(zhǔn)繼承了幾十年前開發(fā)的各種多聲道音頻格式及其相應(yīng)的編碼算法,如杜比數(shù)碼環(huán)繞聲AC-3和DTS。 在開發(fā)新標(biāo)準(zhǔn)格式時(shí),專家必須考慮到人們的各種要求和期望的功能。人們想要與音樂互動(dòng),例如改變不同樂器組合的相對音量。他們想要不同的多媒體流、不同的網(wǎng)絡(luò)、不同的揚(yáng)聲器配置。空間音頻對象編碼的設(shè)計(jì)考慮了這些功能,允許高效存儲(chǔ)和傳輸音頻文件,同時(shí)保留了聽眾根據(jù)個(gè)人喜好調(diào)整混音的可能性。 但是,要實(shí)現(xiàn)這一點(diǎn),要依賴于各種標(biāo)準(zhǔn)化編碼技術(shù)??臻g音頻對象編碼需要通過編碼器來創(chuàng)建文件。編碼器的輸入是一批包含音軌的數(shù)據(jù)文件;每個(gè)音軌文件表示一個(gè)或多個(gè)樂器。編碼器基本上使用標(biāo)準(zhǔn)化技術(shù)來壓縮數(shù)據(jù)文件。在播放過程中,音頻系統(tǒng)中的解碼器對文件進(jìn)行解碼,然后通過數(shù)模轉(zhuǎn)換器將這些文件轉(zhuǎn)換成多聲道模擬聲音信號(hào)。 我們的3D音場技術(shù)繞過了這一點(diǎn),使用單聲道、立體聲或多聲道音頻數(shù)據(jù)文件作為輸入。我們將這些文件或數(shù)據(jù)流劃分為多個(gè)分立音源的音軌,然后根據(jù)聽眾偏好的配置,將這些音軌轉(zhuǎn)換為雙聲道或多聲道輸出,驅(qū)動(dòng)多個(gè)揚(yáng)聲器或頭戴式耳機(jī)。我們使用人工智能技術(shù)避免多聲道重錄、編碼和解碼。
?
事實(shí)上,我們在開發(fā)3D音場系統(tǒng)時(shí)面臨的最大的技術(shù)挑戰(zhàn)是編寫機(jī)器學(xué)習(xí)軟件,將傳統(tǒng)的單聲道、立體聲或多聲道錄音實(shí)時(shí)分離(或混合)成多個(gè)獨(dú)立的音軌。該軟件在神經(jīng)網(wǎng)絡(luò)上運(yùn)行。我們于2012年開發(fā)了這種音樂分離方法,并在2022年和2015年獲得的專利(美國專利號(hào):11240621 B2和9131305 B2)中進(jìn)行了描述。 典型的過程包括兩個(gè)部分:訓(xùn)練和混合。在訓(xùn)練過程中,大量的混音歌曲及其獨(dú)立的樂器和聲樂音軌,分別用作神經(jīng)網(wǎng)絡(luò)的輸入和目標(biāo)輸出。訓(xùn)練過程中使用機(jī)器學(xué)習(xí)來優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù),使神經(jīng)網(wǎng)絡(luò)的輸出(樂器和聲樂的單個(gè)音軌數(shù)據(jù)的集合)與目標(biāo)輸出相匹配。 神經(jīng)網(wǎng)絡(luò)是非常松散的人腦模型。它有一個(gè)輸入節(jié)點(diǎn)層,代表生物神經(jīng)元,接著是許多中間層,稱為“隱藏層”。最后是一個(gè)顯示最終結(jié)果的輸出層。在我們的系統(tǒng)中,輸入節(jié)點(diǎn)的數(shù)據(jù)為混合音軌的數(shù)據(jù)。當(dāng)這些數(shù)據(jù)通過隱藏層節(jié)點(diǎn)進(jìn)行處理時(shí),每個(gè)節(jié)點(diǎn)計(jì)算生成加權(quán)值的總和(見插圖“使用神經(jīng)網(wǎng)絡(luò)分解音頻”)。然后對總和進(jìn)行非線性數(shù)學(xué)運(yùn)算。此計(jì)算確定是否以及如何將來自此節(jié)點(diǎn)的音頻數(shù)據(jù)傳遞到下一層的節(jié)點(diǎn)。 這樣的層有幾十個(gè)。隨著音頻數(shù)據(jù)從一層傳輸?shù)搅硪粚?,各個(gè)樂器逐漸相互分離。最后,在輸出層中,每個(gè)獨(dú)立的音軌被輸出到輸出層中的一個(gè)節(jié)點(diǎn)。 不過,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),輸出可能會(huì)偏離目標(biāo)。例如,它可能不是一個(gè)獨(dú)立樂器的音軌,或它可能包含兩種樂器的音頻成分。在這種情況下,將調(diào)整權(quán)重方案中的單個(gè)權(quán)重,確定數(shù)據(jù)如何從隱藏節(jié)點(diǎn)傳輸?shù)诫[藏節(jié)點(diǎn),然后再次運(yùn)行訓(xùn)練。這種迭代訓(xùn)練和持續(xù)調(diào)整會(huì)一直繼續(xù),直到輸出與目標(biāo)輸出接近完美地匹配為止。 與機(jī)器學(xué)習(xí)的任何訓(xùn)練數(shù)據(jù)集一樣,可用的訓(xùn)練樣本越多,最終的訓(xùn)練效果越好。我們需要數(shù)萬首歌曲及其單獨(dú)樂器音軌來進(jìn)行訓(xùn)練,總訓(xùn)練音樂數(shù)據(jù)集為數(shù)千小時(shí)。 在神經(jīng)網(wǎng)絡(luò)經(jīng)過訓(xùn)練后,輸入一首混音歌曲,經(jīng)過訓(xùn)練建立的系統(tǒng)神經(jīng)網(wǎng)絡(luò)運(yùn)行,輸出多個(gè)獨(dú)立的音軌。
?
將一段錄音分解成音軌成分之后,下一步是將它們重新混合成一段音場錄音。這是由音場信號(hào)處理器完成的。音場處理器執(zhí)行復(fù)雜的計(jì)算功能,生成驅(qū)動(dòng)揚(yáng)聲器的輸出信號(hào),產(chǎn)生音場音頻。發(fā)生器的輸入包括獨(dú)立音軌、揚(yáng)聲器的物理位置以及重建聲場中的聽眾和音源的期望位置。音場處理器的輸出是一個(gè)多音軌信號(hào),每個(gè)聲道一個(gè),用于驅(qū)動(dòng)多個(gè)揚(yáng)聲器。 如果聲場是由揚(yáng)聲器產(chǎn)生的,它可以位于物理空間中;如果聲場是由頭戴式耳機(jī)或耳塞產(chǎn)生的,它也可以位于虛擬空間中。音場處理器的功能基于計(jì)算聲學(xué)和心理聲學(xué)實(shí)現(xiàn),考慮了在期望聲場中聲波的傳播和干擾,以及聽眾的HRTF和期望聲場。 例如,如果聽眾想要使用耳機(jī),生成器將根據(jù)期望音源位置的配置選擇一組HRTF,然后使用所選的HRTF過濾獨(dú)立的音源音軌。最后,音場處理器組合所有的HRTF輸出,為耳機(jī)生成左右音軌。如果聽眾想在揚(yáng)聲器上播放音樂,至少需要使用兩個(gè)揚(yáng)聲器,揚(yáng)聲器越多,聲場越好。重建聲場中的音源數(shù)量可以多于或少于揚(yáng)聲器的數(shù)量。
? 我們于2020年推出了第一個(gè)支持iPhone的音場應(yīng)用程序3D Musica。它允許聽眾實(shí)時(shí)配置、收聽和保存音樂,處理過程不會(huì)造成可感覺的時(shí)間延遲。3D Musica可以將聽眾個(gè)人音樂庫、云端甚至流媒體音樂中的立體聲音樂實(shí)時(shí)轉(zhuǎn)換為音場音樂。(對于卡拉OK錄音,該應(yīng)用程序可以刪除人聲或輸出任一單獨(dú)樂器。) 2022年早些時(shí)候,我們開設(shè)了門戶網(wǎng)站3dsoundstage.com,提供云端3D Musica應(yīng)用程序的所有功能,以及應(yīng)用程序編程接口(API),因此流媒體音樂提供商,甚至任何流行網(wǎng)頁瀏覽器的用戶都可以使用這些功能?,F(xiàn)在,基本上任何人都可用任何設(shè)備聽音場音頻的音樂。 我們還為車輛和家庭音頻系統(tǒng)和設(shè)備開發(fā)了不同版本的3D音場軟件,可用2個(gè)、4個(gè)或更多揚(yáng)聲器重建3D聲場。除了音樂播放,我們希望視頻會(huì)議中也能應(yīng)用這項(xiàng)技術(shù)。我們許多人都體驗(yàn)過參加視頻會(huì)議的疲憊。參加視頻會(huì)議時(shí),我們很難清楚地聽到其他與會(huì)者的聲音,還可能搞不清是誰在講話。而應(yīng)用音場,你可以配置音頻,聽到每個(gè)人的聲音來自虛擬房間的不同位置,“位置”指派可簡單地按照參會(huì)者在Zoom和其他視頻會(huì)議應(yīng)用程序中的網(wǎng)格位置。這樣一來,至少對一些人來說,視頻會(huì)議不會(huì)太累,講話也更容易聽清楚。
?
正如音頻從單聲道到立體聲,從立體聲到環(huán)繞聲和空間音頻一樣,它現(xiàn)在也開始走向音場。在早期,發(fā)燒友評估音響系統(tǒng)的保真度根據(jù)的是帶寬、諧波失真、數(shù)據(jù)分辨率、響應(yīng)時(shí)間、無損或有損數(shù)據(jù)壓縮,以及其他與信號(hào)相關(guān)的參數(shù)?,F(xiàn)在,音場可以看成是聲音保真度的另一個(gè)維度,我們甚至敢說,這是最基本的維度。對于人耳而言,相比不斷改善諧波失真,有空間提示、具備扣人心弦的即時(shí)性的音樂所帶來的影響更為顯著。這是錄制音頻第一次在與保真度相關(guān)外,還考慮到了心理聲學(xué)和更廣泛的大腦活動(dòng)。這個(gè)非凡特性提供的體驗(yàn)甚至超過了許多財(cái)力雄厚的音響發(fā)燒友的體驗(yàn)。 技術(shù)推動(dòng)了音頻產(chǎn)業(yè)的前幾次革命,現(xiàn)在它正在掀起另一場革命。人工智能、虛擬現(xiàn)實(shí)和數(shù)字信號(hào)處理正在利用心理聲學(xué)為音頻愛好者提供前所未有的體驗(yàn)。同時(shí),這些技術(shù)為唱片公司和藝術(shù)家提供了新的工具,為舊唱片注入了新的活力,并開辟了創(chuàng)作的新途徑。令人信服地重現(xiàn)音樂廳音響的百年目標(biāo)終于實(shí)現(xiàn)。?
作者:Qi “Peter” Li、Yin Ding、Jorel Olan
編輯:黃飛
評論
查看更多