︿
Top

導入語料庫訓練 說方言也難不倒

瀏覽次數:1374| 歡迎推文: facebook twitter wechat twitter twitter

黃郁棻、議題與國際觀測團隊 發表於 2018年1月29日

圖、
AI語音技術導入語料庫訓練
 
人工智慧(AI)語音技術進展引發人機互動方式的革命,相關技術透過智慧終端裝置深入人們的生活,帶領世界邁向「聲控世代」,吸引產業競逐人工智慧服務(AIaaS)商機。2016年智慧語音助理勇奪全球服務型機器人銷量冠軍,2017年智慧音箱引爆智慧家庭產品戰場,成為全球首屈一指的明星商品,均是受益於AI語音技術的長足進步及AI語音生態系逐漸成形。觀諸Amazon Echo相關產品的成功,如何充分運用第三方開發者社群的能量,形塑智慧家庭生態系至為關鍵,因此技術開發策略必須兼顧平台化及可擴充性。

AI語音系統涵蓋語音辨識、語意理解等多項技術,語音辨識準確率及應答流暢度攸關使用者體驗的優劣,全球AI語音技術以英語及中文語系為兩大主流,發展策略須結合語言特性及在地需求。數十年來研究者積極發展語言和聲學模型,但對於語音辨識率的提升貢獻有限,近年來導入深度學習技術後,語音辨識準確率有突破性的進展,而語意理解則隨著語料庫訓練而有顯著進步。

在英語語系方面,2016年10月,微軟運用卷積神經網路(CNN)及長短時記憶模型(LSTM)訓練的語音識別系統,在標準口語資料庫Switchboard上測試的詞錯率(WER)已降至5.9%,樹立機器語音辨識準確率超越人類專業速記員的里程碑;在自然語言理解方面,2018年1月初,在業內被譽為機器閱讀理解界的頂級賽事,由史丹福大學發起的SQuAD機器閱讀理解挑戰賽上,微軟亞洲研究院開發的r-net+模型及阿里巴巴iDST開發的SLQA+模型前後刷新紀錄,其模型在閱讀理解文章後,可完全正確或部分正確回答問題的評分超越人類能夠達到的水準,不僅是自然語言處理領域的一大進展,結合AI語音技術亦能進一步開拓智慧客服、教育領域、新聞媒體及搜尋引擎等領域之應用,但值得注意的是這兩項標準測試都是採用標準文本或在無干擾的單純環境下進行,在真實情境下的運用還需要演算法、數據和模型上的創新與精進。

中文語系方面,百度發表的深度語音識別系統 Deep Speech 2對中文語音的識別準確率可達到97%,音訊轉寫的速度較人工速記快1.67倍,MIT科技評論遴選其為2016年十大突破技術之一,轉寫逐字稿可為人類省下四成工時。科大訊飛在MIT於2017年發表「全球最聰明的50家企業」中名列全球第6,其以眾包方式採集22種方言的語料庫,運用大量的卷積層對語音信號進行模型建構,訊飛輸入法可識別包括粵語、湖南語、客家語…等多種方言口音。

國內發展中文語音技術及解決方案的廠商賽微科技,2000年由廣達電腦及凌陽科技轉投資成立,研發團隊多來自於20年前由國科會產學案技轉「金聲三號」技術的聲碩科技,主攻物聯網/行動裝置及車用導航系統的語音辨識技術,與半導體廠合作將演算法整合入晶片中,支援32國語言,全球共有逾7500萬台行動設備導入賽微語音技術。此外,開發智慧機器人Zenbo的華碩,智慧音箱供應鏈廠商如電聲元件供應商美律、喇叭驅動裝置製造商致伸等,也都搶搭這波AI語音裝置風潮,獲取聲控世代商機。

這些具歷史意義的重大進展,也預示了AI語音將取代鍵盤、遙控、觸控等方式,讓AI技術及相關服務更貼近人類的生活,不僅大幅改變人機互動方式,也讓機器朝向「能理解會思考」,具備「感知+認知智慧」的目標更進一步。

但機器的聲音識別能力並不如人類天生擁有的聽覺選擇能力(又稱為雞尾酒會效應),機器在真實情境下語音辨識的準確度取決於音源距離及背景情境的嘈雜程度,須克服不同口音、腔調、慣用語、說話速度及發音清晰度等問題,除了技術精進之外,技術應用之目標地域亦需投注在地化語料庫及在地知識訓練資源,方能優化機器學習的成效,因此AI語音技術在地化為關鍵策略。此外,語意理解、自由對話(多輪對話)、聲紋辨識、知識推理、情感辨識等技術也是國際AI技術布局的熱點,無論是未來高齡社會所需的醫療照護服務,智慧化社會必要的智慧運輸服務、服務型機器人、數位教育、智慧家庭、商業金融等產業應用,都須以語意理解等技術為基礎,拓展人機語音溝通的廣用性,使AI語音成為最直覺、最人性化的人機互動方式。


(作者是國家實驗研究院科技政策研究與資訊中心研究員)
本文刊登於經濟日報2018/01/28)

 
歡迎來粉絲團按讚!
--------------------------------------------------------------------------------------------------------------------------------------------
【聲明】
1.科技產業資訊室刊載此文不代表同意其說法或描述,僅為提供更多訊息,也不構成任何投資建議。
2.著作權所有,非經本網站書面授權同意不得將本文以任何形式修改、複製、儲存、傳播或轉載,本中心保留一切法律追訴權利。