所以,要回答“它準(zhǔn)確嗎?”這個問題。概述自動語音識別準(zhǔn)確性的不同維度至關(guān)重要:
WER 衡量機器在轉(zhuǎn)錄演講者所說內(nèi)容方面的表現(xiàn)。
機器學(xué)習(xí) (ML) 模型轉(zhuǎn)錄的相同音頻被提供給人工標(biāo)注者,以提供轉(zhuǎn)錄的基本事實。
單詞錯誤率 (WER) 的計算方法是將錯誤數(shù)除以總單詞數(shù)。要計算 WER,首先將出現(xiàn)在已識別單詞序列中的替換、插入和刪除相加。根據(jù)基本事實,將該數(shù)字除以單詞總數(shù)。結(jié)果就是 WER。用一個簡單的公式來說,單詞錯誤率=(替換+插入+刪除)/說出的單詞數(shù)。[3]
當(dāng)單詞被替換時會發(fā)生替換(例如,“Carl”被轉(zhuǎn)錄為“Car”)。
插入是指添加了未提及的單詞(例如,“middleware”變?yōu)椤癿odel where”)。
當(dāng)一個單詞被完全遺漏在轉(zhuǎn)錄本中時,就會發(fā)生刪除(例如,“come up with”變成“come with”)。
WER越低,轉(zhuǎn)錄引擎的準(zhǔn)確性越好;這意味著它犯的錯誤更少。
在下表中,我們將 2020 年 6 月作為我們?yōu)?Webex Assistant AI 轉(zhuǎn)錄引擎提供的模型的基準(zhǔn)。您可以看到,隨著時間的推移,我們不斷改進(jìn) WER,到 2022 年 2 月達(dá)到 36% 的增量改進(jìn)。
對于任何給定的語音識別引擎,都沒有絕對的 WER 度量。每個數(shù)據(jù)集都有幾個屬性,例如方言分布、性別、聲學(xué)環(huán)境和領(lǐng)域。因此,在有聲讀物數(shù)據(jù)集上運行 Webex 轉(zhuǎn)錄引擎會導(dǎo)致 WER 與 Webex 會議不同,而 Webex 會議與電話呼叫不同。此外,如果在與會者有口音講話的 Webex 會議上運行相同的轉(zhuǎn)錄引擎,則在 Webex 會議上為母語為英語的用戶運行相同的轉(zhuǎn)錄引擎會導(dǎo)致不同的錯誤率。
為了達(dá)到一流的準(zhǔn)確性,我們僅針對視頻會議用例。與通過電話或他們的 Alexa 說話相比,人們在視頻會議中說話的方式有很多不同之處。我們的語音識別引擎能夠識別這些特定模式,并使其成為視頻會議的最佳選擇。在內(nèi)部構(gòu)建 ASR 引擎與使用第 3方提供商相比,我們能夠根據(jù)特定于 Webex 會議體驗的屬性1訓(xùn)練我們的 ML 模型。
我們的自動語音識別 (ASR) 在會議期間創(chuàng)建 3 種轉(zhuǎn)錄:
草稿/臨時話語:草稿話語是您實時看到的內(nèi)容。如果您在講話時正在查看 Webex 會議中的隱藏字幕 [下面屏幕截圖中的黑框],草稿會在轉(zhuǎn)錄的最初幾毫秒內(nèi)創(chuàng)建,這就是您看到的第一個轉(zhuǎn)錄本。我們稱之為在線/流式音頻轉(zhuǎn)錄。
最終話語:幾毫秒后,會創(chuàng)建另一個更準(zhǔn)確的轉(zhuǎn)錄草稿。這一切都是實時發(fā)生的,肉眼不易分辨。