Alphabet旗下的人工智慧子公司DeepMind與牛津大學(University of Oxford)工程科學系的科學家們上周發表了一篇以人工智慧型(AI)協助辨識唇語的研究報告,顯示利用機器學習辨識唇語的準確率大勝專家。
研究人員先以大量的資料來訓練此一基於機器學習的AI系統,這批資料來自BBC於2010年1月到2015年12月所播出的6個電視節目,總長是5000小時,包含了11.8萬個句子,訓練完畢之後,再以BBC於今年3月到9月播出的節目進行測試。
其實有些影片的唇型及聲音並不同步,但研究人員假設多數影片與聲音是同步的,系統便能自動學習以校正聲音及嘴型的連結 。
該AI系統與專家一起辨識從測試資料集中隨機選出的200個片段,根據New Scientist的報導,專家準確無誤辨識出每個字的機率只有12.4%,AI系統則達到46.8%。
研究人員認為人工智慧唇語系統可用來改善助聽器功能,或是在不能出聲的公開場合中進行聽寫,也可在吵雜的環境中辨識他人的言語。