Webex AI 支持的音頻處理模型
Webex 客戶依靠我們的產(chǎn)品組合在任何地方進(jìn)行協(xié)作。我們的方法是識(shí)別參與者的特征,無論其環(huán)境如何,然后利用人工智能和機(jī)器學(xué)習(xí) (ML) 將傳入的音頻或視頻分離成分段的數(shù)據(jù)豐富的流。以前,在廣泛部署的實(shí)時(shí)通信軟件中,這種重要組件流的詳細(xì)提取水平是不可能的。
分解分離傳入的音頻流,包括:
通過基于語(yǔ)音級(jí)別和語(yǔ)音混響估計(jì)說話者與麥克風(fēng)的距離來識(shí)別前景和背景說話者
檢測(cè)到音頻事件,包括特定的聲音觸發(fā)器或關(guān)鍵字。
混響,房間中聲音的微妙回聲,是分開的,可以調(diào)整以澄清參與者的聲音。
背景音樂被分離到自己的流中,可以在重組階段進(jìn)行音量調(diào)整。
背景噪聲與環(huán)境元素分離,并且可以包括可以根據(jù)用例進(jìn)行調(diào)整的環(huán)境元素。
一旦數(shù)據(jù)流被分離,我們將它們聚合成每個(gè)用戶的音頻組件,使我們能夠單獨(dú)選擇、修改或?qū)γ總€(gè)參與者的音頻流采取行動(dòng)。
根據(jù)用例,我們可以將各個(gè)數(shù)據(jù)流組合回與他人共享的音頻中。這種方法使我們能夠服務(wù)于各種用例和需求。例如,Webex 智能音頻功能使參與者可以選擇是否要去除所有背景噪音(噪音去除)、去除所有背景噪音和背景語(yǔ)音(優(yōu)化我的聲音),或者在您演奏樂器或演奏時(shí)聽到原始聲音唱歌(音樂模式)。
生成的音頻流以一種更容易理解且腦力更少的方式傳遞給其他參與者。
由于我們的 AI 架構(gòu)專注于協(xié)作,我們可以在一個(gè)計(jì)算周期內(nèi)分離媒體,而不是通過不同的模型多次處理媒體流。這種方法提高了流程的整體效率并提供了低延遲體驗(yàn)。我們還可以輕松地將新組件添加到流計(jì)算周期中,從而可能通過更豐富的輸入流圖片來啟用新的使用場(chǎng)景。Webex 媒體流處理方法擴(kuò)展到:
我們可以區(qū)分說話者和噪音、距離麥克風(fēng)更近或更遠(yuǎn)的說話者,甚至可以調(diào)整房間混響。所有這些元素都被標(biāo)識(shí)為單獨(dú)的流,從而為滿足特定用戶需求提供了更大的靈活性。我們可以單獨(dú)選擇、修改這些流并對(duì)其執(zhí)行操作,并從選定的音頻組件中重建新的音頻流。例如,在一次通話中,我們可能想要均衡前景或背景中講話者的音量,而在其他通話中,我們可能只想突出顯示離麥克風(fēng)最近的講話者。我們還可以識(shí)別音頻事件觸發(fā)器,例如“OK Webex”或突出顯示對(duì)參與者可能很重要的其他環(huán)境音頻。
我們的媒體流方式使我們能夠?qū)σ曨l場(chǎng)景有更豐富的理解,并重新組合元素以提高視頻質(zhì)量。例如,我們可以將參與者與他們的背景和他們使用的手勢(shì)區(qū)分開來。我們可以通過選擇和修改這些單獨(dú)的流來渲染視頻,以最大限度地提高其他參與者對(duì)演示者的看法,同時(shí)最大限度地減少干擾。這種方法打開了一個(gè)充滿可能性的世界,使參與者更容易在困難的環(huán)境中進(jìn)行協(xié)作。