自 2020 年推出Webex 助手以來,我們從客戶那里收到的最常見問題是:“它準確嗎?” 我明白了;客戶希望確保,如果他們選擇使用 Webex AI(人工智能)自動轉(zhuǎn)錄引擎,它將兌現(xiàn)保持準確會議記錄的承諾,讓與會者專注于對話,而不是輸入會議記錄,并通過輔助功能使會議更具包容性。人工智能過度承諾和交付不足的例子有很多,對于關(guān)鍵業(yè)務(wù)任務(wù),Webex 已經(jīng)取得了長足的進步,以確保對準確性的不懈關(guān)注。
隨著世界進入混合工作模式,隱藏式字幕、轉(zhuǎn)錄和捕獲行動項目等功能在推動平等和包容的會議體驗方面變得比以往任何時候都更加重要,無論用戶說什么語言、他們可能有什么可訪問性需求或是否他們選擇跳過會議來處理他們忙碌的生活并依靠 Webex 助手來提供回顧。我們的目標是利用人工智能和機器學(xué)習(xí)為每個人提供更好的每次會議體驗。
構(gòu)建最先進的 AI 轉(zhuǎn)錄引擎是實現(xiàn)該目標的一種方式。
鑒于 Webex 在構(gòu)建強大的端到端標簽、培訓(xùn)和機器學(xué)習(xí)管道方面所做的投資,我們很自豪能夠利用這一基礎(chǔ)推出具有行業(yè)領(lǐng)先準確性的英語轉(zhuǎn)錄引擎,用于 Webex 會議與市場上一些一流的語音識別引擎相比,體驗。為了擴大我們技術(shù)的覆蓋范圍以覆蓋全球 98% 以上的 Webex 客戶,我們將推出完全由內(nèi)部構(gòu)建的西班牙語、法語和德語 ASR(自動語音識別引擎),將免費提供適用于今年上半年的所有 Webex 助手用戶。
當(dāng)我們想到對話的準確轉(zhuǎn)錄時,我們經(jīng)常設(shè)想,如果我們讓人類轉(zhuǎn)錄員聽這個音頻文件,轉(zhuǎn)錄將反映所說內(nèi)容的準確記錄。然而,從長遠來看,在一些流行的數(shù)據(jù)集(例如“CallHome”)上測量了人為錯誤率,迄今為止報告的最佳結(jié)果是 6.8% 的錯誤率;這意味著如果您有 100 個單詞的成績單,其中大約 7 個單詞會被人類轉(zhuǎn)錄不準確。還值得一提的是,“CallHome”是一個數(shù)據(jù)集,它構(gòu)成了以英語為母語的人之間的 30 分鐘無腳本電話對話。[1] 預(yù)計具有不同英語口音的人的數(shù)據(jù)集的百分比錯誤會更高。
更有趣的是,由語言學(xué)數(shù)據(jù)聯(lián)盟 (LDC) 衡量的轉(zhuǎn)錄者間一致性在 4.1% 到 9.6% 之間,這取決于它是仔細的多重轉(zhuǎn)錄還是快速轉(zhuǎn)錄 [2]。這意味著,如果您將相同的音頻文件提供給 2 個人,即使在完美的環(huán)境條件下,他們?nèi)匀徊粫a(chǎn)生相同的錄音。
我們的目標是繼續(xù)改進 Webex 轉(zhuǎn)錄,使其不僅與人工轉(zhuǎn)錄相媲美,而且超越它,并為我們在不同口音、性別和聲學(xué)環(huán)境中提供的每種語言實現(xiàn)一流的準確性。
所以,要回答“它準確嗎?”這個問題。概述自動語音識別準確性的不同維度至關(guān)重要:
WER 衡量機器在轉(zhuǎn)錄演講者所說內(nèi)容方面的表現(xiàn)。
機器學(xué)習(xí) (ML) 模型轉(zhuǎn)錄的相同音頻被提供給人工標注者,以提供轉(zhuǎn)錄的基本事實。
單詞錯誤率 (WER) 的計算方法是將錯誤數(shù)除以總單詞數(shù)。要計算 WER,首先將出現(xiàn)在已識別單詞序列中的替換、插入和刪除相加。根據(jù)基本事實,將該數(shù)字除以單詞總數(shù)。結(jié)果就是 WER。用一個簡單的公式來說,單詞錯誤率=(替換+插入+刪除)/說出的單詞數(shù)。[3]
當(dāng)單詞被替換時會發(fā)生替換(例如,“Carl”被轉(zhuǎn)錄為“Car”)。
插入是指添加了未提及的單詞(例如,“middleware”變?yōu)椤癿odel where”)。
當(dāng)一個單詞被完全遺漏在轉(zhuǎn)錄本中時,就會發(fā)生刪除(例如,“come up with”變成“come with”)。
WER越低,轉(zhuǎn)錄引擎的準確性越好;這意味著它犯的錯誤更少。
在下表中,我們將 2020 年 6 月作為我們?yōu)?Webex Assistant AI 轉(zhuǎn)錄引擎提供的模型的基準。您可以看到,隨著時間的推移,我們不斷改進 WER,到 2022 年 2 月達到 36% 的增量改進。
對于任何給定的語音識別引擎,都沒有絕對的 WER 度量。每個數(shù)據(jù)集都有幾個屬性,例如方言分布、性別、聲學(xué)環(huán)境和領(lǐng)域。因此,在有聲讀物數(shù)據(jù)集上運行 Webex 轉(zhuǎn)錄引擎會導(dǎo)致 WER 與 Webex 會議不同,而 Webex 會議與電話呼叫不同。此外,如果在與會者有口音講話的 Webex 會議上運行相同的轉(zhuǎn)錄引擎,則在 Webex 會議上為母語為英語的用戶運行相同的轉(zhuǎn)錄引擎會導(dǎo)致不同的錯誤率。
為了達到一流的準確性,我們僅針對視頻會議用例。與通過電話或他們的 Alexa 說話相比,人們在視頻會議中說話的方式有很多不同之處。我們的語音識別引擎能夠識別這些特定模式,并使其成為視頻會議的最佳選擇。在內(nèi)部構(gòu)建 ASR 引擎與使用第 3方提供商相比,我們能夠根據(jù)特定于 Webex 會議體驗的屬性1訓(xùn)練我們的 ML 模型。
我們的自動語音識別 (ASR) 在會議期間創(chuàng)建 3 種轉(zhuǎn)錄:
草稿/臨時話語:草稿話語是您實時看到的內(nèi)容。如果您在講話時正在查看 Webex 會議中的隱藏字幕 [下面屏幕截圖中的黑框],草稿會在轉(zhuǎn)錄的最初幾毫秒內(nèi)創(chuàng)建,這就是您看到的第一個轉(zhuǎn)錄本。我們稱之為在線/流式音頻轉(zhuǎn)錄。
最終話語:幾毫秒后,會創(chuàng)建另一個更準確的轉(zhuǎn)錄草稿。這一切都是實時發(fā)生的,肉眼不易分辨。
