研發服務平台亮點成果獎─佳作獎
使用平台:國網中心「台灣杉二號AI超級電腦」
隨著近年來生成式人工智慧(AI)進入大眾視野,越來越多人習慣使用相關工具,例如請Gemini、ChatGPT協助整理資料,或是透過DALL-E 3、Midjourney產出各式炫目的圖像。只要輕鬆鍵入文字,就可以交由AI解決各式難題,那麼,我們還能再更進一步,透過「語音」輸入來達到「動口不動手」的境界嗎?目前,尚未有成熟的「語音理解與生成」模型問世,該如何實現這項願景,是許多團隊正在努力的目標。
語音 vs. 文字,難度跳級的考驗
國立臺灣大學電機工程學系教授李宏毅早在大學時期,便跟著中央研究院院士李琳山進行語音相關研究,而後一路延續至今。他認為,以語音的方式去理解、表達意義,可說是對於人類來說最為直觀自然的方式,也正因這種特色,深深吸引著他投入語音理解的領域。
有些人可能會好奇,同樣都是「語言模型」,以文字為主或以語音為主,到底有何差異呢?李宏毅表示,其實兩者的難度截然不同。用一句常見問候語「你好嗎?」來舉例,若以「文字」作為輸入模態,那便只有三個符號需要確認;但若以「語音」作為輸入模態,假設錄音時取樣率設置在每秒16,000個取樣點,假設「你好嗎?」這句話的長度為一秒,那這句話就會收錄到16,000個數值,需要做後續分析與計算。因此,雖然乍看都是語言理解與處理的技術,但其背後的資料量卻天差地別。
雙向資料處理,機器處理的大敵
除了龐大的資料量之外,語音理解與處理還隱藏著許多難題。第一道關卡,便是雙向處理的挑戰。人們平常在溝通時,其實是同時在處理「聽」和「說」兩項重大任務,說話者須在說話的同時,聆聽對方的反應,以便適時調整談話的內容。然而,這樣看似簡單的「邊聽邊說」,對AI來說卻是非常艱難的一件事。目前,大部分AI只擅長處理文字輸入等「單向」溝通,至於要如何讓AI既聽又說,直到目前為止尚是個未解之謎。
另一方面,語音包含的面向極廣,並含有非常多文字無法表達的資訊,例如說話者本身的身分、說話者的情緒、說話當下的背景音,這些參數導致我們每一次說出的「你好嗎?」都不會完全一樣,正是這些細微的差異,大大提升了AI理解與學習的難度。
而最後的挑戰則在語音合成的部分。由於AI是藉由產生無數個聲音「取樣點」來合成語音,因此,資料處理的數量和複雜度都比文字生成高出許多。假設我們今天要產生一篇100字的小短文,以文字模型來說,只需生成100個字(符號);但以語音模型來說,100字大約等於一分鐘的語音訊息,其中每一個字的語音都擁有上萬個取樣點,一分鐘的語音就得產生超過百萬個取樣點。假設將每個取樣點換算成一個符號(字),那語音模型光是「說」出一分鐘的工夫,可能就能「寫」出一部《紅樓夢》。
讓機器自己學習!開拓非監督式學習
正因語音處理議題之複雜,若是採用傳統「監督式學習」的方式,基本上很難達成任務。用監督式學習來訓練機器時,需事先收集大量資料,然後幫資料貼上標籤,方便機器學習標籤規則。如此費時費力、成本龐大,使得很多小語種在這種情境中容易被忽略。
而語音處理除了辨識語音本身,更需辨識說話者、情境、情緒⋯⋯,實務上根本無法針對每個辨識項目標示出如此海量的資料。因此,就得改採「非監督式學習」來訓練機器,先在人類未介入的情況下,直接給予機器大量資訊,並提供學習任務,讓機器自行摸索出方向、鍛鍊基本功。
早在2018年左右,李宏毅與實驗室學生劉廷瑋共同打造出自督導式「Mockingjay」模型,透過遮蔽部分聲音訊息,讓機器嘗試「聲音填空」,並藉此了解聲音訊號。如此一來,即便機器之後要學習進階任務,也只需少量資料便可以完成任務。而現在,微軟、Google、Meta也投入了許多研究資源開發相關模型。
評估機器學習成效,建立新世代標準
大量自督導式模型出現後,李宏毅實驗室中的博士生楊書文帶領跨國團隊,共同訂定出「SUPERB」標準,為語音相關的自督導式學習模型寫下評鑑基準,涵蓋十項核心任務。此標準一出,便成為Interspeech國際會議近五年來引用數世界排名前十的論文,從此拓展了大家對於自督導式學習模型的想像。
在研究路上,無論是訓練,或是微調自督導式學習模型,都需要大量算力資源。2019年,團隊想要教導GPT2各式任務,卻受限於既有算力,於是開始尋求國家高速網路與計算中心(簡稱國網中心)的協助。李宏毅認為,目前國網中心與學校的合作模式可說是非常理想,不僅免除了學校打造獨立圖形處理器(GPU)叢集的負擔,精良設備提供的算力更讓研究者得以比肩國際。
李宏毅相信,AI最終需要學會如何以語音溝通,才能真正拉近與人類的距離。未來,希望能繼續借重國網中心的支持,開發出一款自督導式的通用型語音模型,能夠同時勝任多項任務,最終「讓AI擁有語音介面」。他也期待自己能運用國網中心的資源,做出能讓世界看見的研究,同時,也能用研究令台灣、乃至世界看見國網中心的重要性,讓國網中心得以有更佳的發展,扶持台灣學術圈擁有更好的未來。
李宏毅與實驗室團隊在開發模型之外,更為自督導式學習模型寫下評鑑基準