微軟周二公佈一項報告,指出微軟開發的口語辨識技術在一項測試中,首度達到錯誤率和人類相去不遠的辨識能力。
微軟人工智慧研究中心(Microsoft Artificial Intelligence and Research)公佈的報告中研究人員及工程師運用業界常用的電話口語對話測試集NIST 2000 CTS,針對微軟自有技術及專業聽打員進行測試比較。其中在Switchboard子測試集中,微軟技術的字詞錯誤率由上個月的6.3%降到5.9%。
微軟表示,這個成績大約等於辨識同一組對話的人類成績,也是Switchboard口語辨識測試歷來最低的錯誤率。這表示電腦辨識對話口語字詞的能力,首次達到人類相同水準。
主管微軟人工智慧研究中心的執行副總裁沈向洋也指出,他們去年立下使電腦語音辨識能力達到人類水準的目標,不到一年就達到了,也出乎他們意料之外。
微軟研究團隊運用該公司電腦視覺專家開發的深度神經網路,以大量資料訓練電腦辨識出圖像或語音中的模式。為達到和人類相仿的辨識能力,他們使用名為Computation Network Toolkit(CNTK)的深度學習系統。這套系統透過在多台搭載專用繪圖處理器的電腦上快速處理執行深度演算,並大幅提升研究能力,最終拉高到人類水準。微軟去年也將此工具組開源於GitHub釋出。但微軟也指出,一如人類會犯錯,電腦也不是所有字都能辨識無誤
微軟表示,這項研究結果將對消費及商用產品有深遠影響,包括Xbox遊戲機、身障輔助工具,如口語聽寫,並使Cortana成為真正的個人數位助理服務。
除了微軟,Google、臉書、IBM及百度也都積極投入人工智慧為基礎的語音辨識,用以作為人機的自然語言互動介面。