講台語就能通英文!Meta 發佈第一個全新 AI 技術支援的非書寫語音翻譯系統

至今為止,AI 翻譯主要著重於各種書寫語言。但在全球超過 7,000 種的現存語言中,將近半數主要是以口語表達,而沒有標準或廣泛使用的書寫文字系統。這導致我們無法使用標準技術為這類語言打造機器翻譯工具,因為標準技術需有大量的書寫文字來訓練 AI 模型。為克服這項挑戰,我們為主要以口語表達的「閩南語」打造了一個史無前例的人工智慧技術翻譯系統。閩南語是華裔群眾廣泛使用的語言,但缺少標準書寫文字系統。我們的技術可讓使用閩南語的人士與使用英語的人士對話。

 

 

 

該開放原始碼的翻譯系統是 Meta Universal Speech Translator(UST,或譯:通用語音翻譯工具)專案的一部分,該專案致力於開發新的 AI 方法,希望最終能為所有現存語言進行即時語音翻譯,包括主要以口語表達的語言。我們相信口語溝通有助於打破隔閡,拉近人們之間的距離,無論身在何處,甚至在元宇宙中也不例外。

為開發這個只有語音的全新翻譯系統,Meta AI 研究人員必須克服許多來自傳統機器翻譯系統的挑戰,包括資料蒐集、模型設計,以及準確度評估。在將 UST 擴展至更多語言之前,我們還有很多工作要做。但能夠輕鬆地與使用任何語言的人們溝通的能力,是我們長久以來追尋的夢想,因此我們很高興能向這個目標更邁進了一步。我們不只會開放閩南語翻譯模型的原始碼,也會公開評估資料集和研究報告,讓他人能夠重製並以我們的工作成果為基礎建立模型。

克服訓練資料的挑戰

我們著手打造閩南語翻譯系統時,面臨的一個重大障礙就是是否能夠蒐集到足夠的資料。閩南語是所謂的資源匱乏語言,這意味著與西班牙文或英文等語言相比,該語言尚未有足夠的訓練資料。此外,將英語翻譯成閩南語的翻譯人員相對來說很少,因此更難以蒐集資料並加上註解來訓練模型。

我們利用中文作為中間語言,以建立偽標籤和人工翻譯,意思是我們先將英語(或閩南語)語音翻譯成中文文字,接著再翻譯成閩南語(或英語),然後新增至訓練資料中。此方法利用了資源充足的相似語言的資料,藉此大幅改善了模型成效。

另一個產生訓練資料的作法是語音探勘。我們使用預先訓練好的語音編碼器,便能透過編碼方式將閩南語語音嵌入內容加入到其他語言的相同語意空間中,而無須取得閩南語的書寫文字。閩南語語音可以和擁有相似語意嵌入內容的英語語音和文字配對。我們接著從文字來合成英文語音,產生平行的閩南語和英語語音。

 

 

 

 

閩南語 AI 翻譯背後的溫馨小故事:

來自台灣的Meta 軟體工程師陳鵬仁深深地了解語言障礙將影響大家的溝通能力。陳鵬仁在台灣長大,講中文,但是他的父親,陳聖獎是一個 70 歲、退休的工廠技術主管,來自台語(在台灣使用的閩南語)普遍使用的台灣南部。雖然閩南語與中文這兩種語言是相關的,但仍有許多不同,讓陳鵬仁的爸爸常覺得用中文進行複雜的對話非常困難。「我希望我爸跟所有人溝通時都用台語(在台灣使用的閩南語)對話,這是他最熟悉的語言。」Meta AI 的研究員陳鵬仁分享,「他聽得懂中文,但若是討論比較複雜的主題時,他說話的速度會比較慢。」然而,不甘於只為爸爸擔心,陳鵬仁開始投入心力,改善這個問題——他推動全新的技術發展,讓閩南語及英文之間得以相互翻譯。

https://tech.fb.com/artificial-intelligence/2022/10/ai-translation-unwritten-language/