想到語音合成技術 (Text to Speech, TTS ) 或是文字轉聲音技術 ,大部分的人聯想到的都是 Google 小姐或 Siri,試想如果是自己喜歡或熟悉的聲音,例如林志玲聲音來代替 Google 小姐,將有更具溫度的對話,而資策會服創所團隊的 MULTI-OBJECT REALITY EXPERIENCE (MORE) 技術實現了這樣的情境!

客製化特定角色語音合成 : 高成本問題

目前一個語音合成模型製作除了演算法技術外,大量的「錄音」與「標音」作業使得客製化一個特定角色聲音之成本高居不下,例如 Siri 中文聲音就是錄製 2~3 萬句才完成的TTS,成本要 AI 大廠才可負擔,做出的角色聲音,也未必適用所需的場景,資策會服創所團隊聽到業界有許多需求:是要小朋友或長者的聲音,同時希望不要有大陸口音,而台灣本土很少著墨這一塊。

資策會服創所 MORE 技術提供語音合成 SDK 服務
資策會服創所團隊的語音合成 SDK 提供離線下即時語音合成服務

少語料的語音合成技術

資策會服創所團隊花了兩年時間研發出「少語料」語音合成技術,大幅降低製作一個角色聲音所需錄製之語料,由 2~3 萬句減少到 3000 句,即可客製化一個你想要的角色 TTS,作業成本減少 60% 以上,未來讓人人都有自己的 TTS 這件事成為可能,可以想像:未來可以讓自己的 TTS 代替忙碌的你說故事給小孩聽。

語料減少,語音合成品質是否就會降低呢? 資策會所產出的每一個角色語音模型皆會由 20 位專家進行平均意見分數 (Mean Opinion Score, MOS) 聽測,與其他 2 家國外大廠透過一則 300 字短篇故事合成做比較,分數無顯著差異,並可產出具多種情緒之聲調,包括開心、生氣及難過等。

豐富的應用場景

109 年資策會服創所提供 4 個角色 TTS,包括可愛小男生、可愛小女生、男性導覽員、女性導覽員,提供 API (連網下)、SDK (無須連網)及網站上音檔直接輸出方式,並可產出具多種情緒之聲調,包括開心、生氣及難過等,可整合至兒童故事機、影片自動配音、陪伴機器人及動畫製作配音等應用上,另外針對客製化角色語音部分,製作一個知名大師之 TTS,可於 2 個月完成角色聲音模型上線完成。

資策會語音合成TTS網站連結

資策會服創所語音合成TTS技術網站截圖
資策會語音合成TTS網站上提供多個角色輸入文字直接產出音檔服務

在〈快速客製化你的聲音: MORE特定人物角色語音模擬技術〉中有 2 則留言

發表迴響