讓AI「聽」懂人話！邁向非監督式語音理解與生成

研發服務平台亮點成果獎─佳作獎

使用平台：國網中心「台灣杉二號AI超級電腦」

隨著近年來生成式人工智慧（AI）進入大眾視野，越來越多人習慣使用相關工具，例如請Gemini、ChatGPT協助整理資料，或是透過DALL-E 3、Midjourney產出各式炫目的圖像。只要輕鬆鍵入文字，就可以交由AI解決各式難題，那麼，我們還能再更進一步，透過「語音」輸入來達到「動口不動手」的境界嗎？目前，尚未有成熟的「語音理解與生成」模型問世，該如何實現這項願景，是許多團隊正在努力的目標。

語音 vs. 文字，難度跳級的考驗

國立臺灣大學電機工程學系教授李宏毅早在大學時期，便跟著中央研究院院士李琳山進行語音相關研究，而後一路延續至今。他認為，以語音的方式去理解、表達意義，可說是對於人類來說最為直觀自然的方式，也正因這種特色，深深吸引著他投入語音理解的領域。

有些人可能會好奇，同樣都是「語言模型」，以文字為主或以語音為主，到底有何差異呢？李宏毅表示，其實兩者的難度截然不同。用一句常見問候語「你好嗎？」來舉例，若以「文字」作為輸入模態，那便只有三個符號需要確認；但若以「語音」作為輸入模態，假設錄音時取樣率設置在每秒16,000個取樣點，假設「你好嗎？」這句話的長度為一秒，那這句話就會收錄到16,000個數值，需要做後續分析與計算。因此，雖然乍看都是語言理解與處理的技術，但其背後的資料量卻天差地別。

雙向資料處理，機器處理的大敵

除了龐大的資料量之外，語音理解與處理還隱藏著許多難題。第一道關卡，便是雙向處理的挑戰。人們平常在溝通時，其實是同時在處理「聽」和「說」兩項重大任務，說話者須在說話的同時，聆聽對方的反應，以便適時調整談話的內容。然而，這樣看似簡單的「邊聽邊說」，對AI來說卻是非常艱難的一件事。目前，大部分AI只擅長處理文字輸入等「單向」溝通，至於要如何讓AI既聽又說，直到目前為止尚是個未解之謎。

另一方面，語音包含的面向極廣，並含有非常多文字無法表達的資訊，例如說話者本身的身分、說話者的情緒、說話當下的背景音，這些參數導致我們每一次說出的「你好嗎？」都不會完全一樣，正是這些細微的差異，大大提升了AI理解與學習的難度。

而最後的挑戰則在語音合成的部分。由於AI是藉由產生無數個聲音「取樣點」來合成語音，因此，資料處理的數量和複雜度都比文字生成高出許多。假設我們今天要產生一篇100字的小短文，以文字模型來說，只需生成100個字（符號）；但以語音模型來說，100字大約等於一分鐘的語音訊息，其中每一個字的語音都擁有上萬個取樣點，一分鐘的語音就得產生超過百萬個取樣點。假設將每個取樣點換算成一個符號（字），那語音模型光是「說」出一分鐘的工夫，可能就能「寫」出一部《紅樓夢》。

讓機器自己學習！開拓非監督式學習

正因語音處理議題之複雜，若是採用傳統「監督式學習」的方式，基本上很難達成任務。用監督式學習來訓練機器時，需事先收集大量資料，然後幫資料貼上標籤，方便機器學習標籤規則。如此費時費力、成本龐大，使得很多小語種在這種情境中容易被忽略。

而語音處理除了辨識語音本身，更需辨識說話者、情境、情緒⋯⋯，實務上根本無法針對每個辨識項目標示出如此海量的資料。因此，就得改採「非監督式學習」來訓練機器，先在人類未介入的情況下，直接給予機器大量資訊，並提供學習任務，讓機器自行摸索出方向、鍛鍊基本功。

早在2018年左右，李宏毅與實驗室學生劉廷瑋共同打造出自督導式「Mockingjay」模型，透過遮蔽部分聲音訊息，讓機器嘗試「聲音填空」，並藉此了解聲音訊號。如此一來，即便機器之後要學習進階任務，也只需少量資料便可以完成任務。而現在，微軟、Google、Meta也投入了許多研究資源開發相關模型。

評估機器學習成效，建立新世代標準

大量自督導式模型出現後，李宏毅實驗室中的博士生楊書文帶領跨國團隊，共同訂定出「SUPERB」標準，為語音相關的自督導式學習模型寫下評鑑基準，涵蓋十項核心任務。此標準一出，便成為Interspeech國際會議近五年來引用數世界排名前十的論文，從此拓展了大家對於自督導式學習模型的想像。

在研究路上，無論是訓練，或是微調自督導式學習模型，都需要大量算力資源。2019年，團隊想要教導GPT2各式任務，卻受限於既有算力，於是開始尋求國家高速網路與計算中心（簡稱國網中心）的協助。李宏毅認為，目前國網中心與學校的合作模式可說是非常理想，不僅免除了學校打造獨立圖形處理器（GPU）叢集的負擔，精良設備提供的算力更讓研究者得以比肩國際。

李宏毅相信，AI最終需要學會如何以語音溝通，才能真正拉近與人類的距離。未來，希望能繼續借重國網中心的支持，開發出一款自督導式的通用型語音模型，能夠同時勝任多項任務，最終「讓AI擁有語音介面」。他也期待自己能運用國網中心的資源，做出能讓世界看見的研究，同時，也能用研究令台灣、乃至世界看見國網中心的重要性，讓國網中心得以有更佳的發展，扶持台灣學術圈擁有更好的未來。

李宏毅與實驗室團隊在開發模型之外，更為自督導式學習模型寫下評鑑基準

2024第四屆