Webex AI 支持的音頻處理模型
Webex 客戶依靠我們的產(chǎn)品組合在任何地方進(jìn)行協(xié)作。我們的方法是識別參與者的特征,無論其環(huán)境如何,然后利用人工智能和機器學(xué)習(xí) (ML) 將傳入的音頻或視頻分離成分段的數(shù)據(jù)豐富的流。以前,在廣泛部署的實時通信軟件中,這種重要組件流的詳細(xì)提取水平是不可能的。
分解分離傳入的音頻流,包括:
通過基于語音級別和語音混響估計說話者與麥克風(fēng)的距離來識別前景和背景說話者
檢測到音頻事件,包括特定的聲音觸發(fā)器或關(guān)鍵字。
混響,房間中聲音的微妙回聲,是分開的,可以調(diào)整以澄清參與者的聲音。
背景音樂被分離到自己的流中,可以在重組階段進(jìn)行音量調(diào)整。
背景噪聲與環(huán)境元素分離,并且可以包括可以根據(jù)用例進(jìn)行調(diào)整的環(huán)境元素。
一旦數(shù)據(jù)流被分離,我們將它們聚合成每個用戶的音頻組件,使我們能夠單獨選擇、修改或?qū)γ總€參與者的音頻流采取行動。
根據(jù)用例,我們可以將各個數(shù)據(jù)流組合回與他人共享的音頻中。這種方法使我們能夠服務(wù)于各種用例和需求。例如,Webex 智能音頻功能使參與者可以選擇是否要去除所有背景噪音(噪音去除)、去除所有背景噪音和背景語音(優(yōu)化我的聲音),或者在您演奏樂器或演奏時聽到原始聲音唱歌(音樂模式)。
生成的音頻流以一種更容易理解且腦力更少的方式傳遞給其他參與者。
由于我們的 AI 架構(gòu)專注于協(xié)作,我們可以在一個計算周期內(nèi)分離媒體,而不是通過不同的模型多次處理媒體流。這種方法提高了流程的整體效率并提供了低延遲體驗。我們還可以輕松地將新組件添加到流計算周期中,從而可能通過更豐富的輸入流圖片來啟用新的使用場景。Webex 媒體流處理方法擴展到:
我們可以區(qū)分說話者和噪音、距離麥克風(fēng)更近或更遠(yuǎn)的說話者,甚至可以調(diào)整房間混響。所有這些元素都被標(biāo)識為單獨的流,從而為滿足特定用戶需求提供了更大的靈活性。我們可以單獨選擇、修改這些流并對其執(zhí)行操作,并從選定的音頻組件中重建新的音頻流。例如,在一次通話中,我們可能想要均衡前景或背景中講話者的音量,而在其他通話中,我們可能只想突出顯示離麥克風(fēng)最近的講話者。我們還可以識別音頻事件觸發(fā)器,例如“OK Webex”或突出顯示對參與者可能很重要的其他環(huán)境音頻。
我們的媒體流方式使我們能夠?qū)σ曨l場景有更豐富的理解,并重新組合元素以提高視頻質(zhì)量。例如,我們可以將參與者與他們的背景和他們使用的手勢區(qū)分開來。我們可以通過選擇和修改這些單獨的流來渲染視頻,以最大限度地提高其他參與者對演示者的看法,同時最大限度地減少干擾。這種方法打開了一個充滿可能性的世界,使參與者更容易在困難的環(huán)境中進(jìn)行協(xié)作。
Webex 助手提供語音控制協(xié)作體驗、主動智能、轉(zhuǎn)錄和翻譯服務(wù)。與基于云的標(biāo)準(zhǔn)系統(tǒng)相比,我們以一種在設(shè)備上處理更多語言識別的方式實現(xiàn)了這一點,從而提高了準(zhǔn)確性并將延遲減少了多達(dá) 4 倍。Webex 助手還提供具有 Webex 助手技能的 API,以便第三方開發(fā)人員可以添加新功能并通過語音控制連接到他們的應(yīng)用程序。我們擴大了轉(zhuǎn)錄、翻譯支持的語言數(shù)量,甚至為設(shè)備添加了其他語言,包括英語(現(xiàn)有)、德語、法語、西班牙語和日語。
計算機視覺能夠識別視頻流中的空間環(huán)境。Webex 的 3D 方法側(cè)重于減少演示者和參與者的認(rèn)知負(fù)擔(dān),而不是要求 AR/VR 耳機將他們體現(xiàn)在完全虛擬的現(xiàn)實空間中。例如,我們可以提取準(zhǔn)確的 3D 模型并進(jìn)行適配。我們還可以掃描參與者的面部幾何形狀,以實現(xiàn)圖像增強和個性化。
Webex 的 AI 方法使團(tuán)隊能夠以更高的靈活性進(jìn)行協(xié)作,并擴展人們參與會議的方式。今天,強大的人工智能驅(qū)動的媒體流處理模型提供了當(dāng)今世界級的協(xié)作體驗,并為明天開辟了新的領(lǐng)域。