作者:董倩倩
近年來,大規(guī)模語言模型(LLMs)建模在 NLP 領(lǐng)域取得了許多突破,特別是 ChatGPT 的成功,正引領(lǐng)大家邁入一個(gè)新的 AI 時(shí)代。截止目前,基于 encoder-decoder 框架的模型在語音處理任務(wù)中仍占主導(dǎo)地位,而基于語言模型(LM)的方法還處于初期探索階段。AudioLM 和 VALL-E 作為前期工作已經(jīng)證明了利用離散語義單元(Semantic Units)和離散聲學(xué)單元(Acoustic Units)聯(lián)合語言模型建模在音頻生成任務(wù)上的有效性。
(資料圖)
基于此,字節(jié)跳動(dòng)的研究者們提出了基于語音離散單元的語音到語音翻譯(S2ST)框架 PolyVoice。PolyVoice 有兩點(diǎn)突出貢獻(xiàn):
(1)decoder-only:使用 decoder-only 框架實(shí)現(xiàn)直接的語音翻譯,同時(shí)能夠容納多源的訓(xùn)練數(shù)據(jù)。
(2)textless:構(gòu)建了基于 units 的音頻 LM 用于語音翻譯,可以用于非書寫語言。
論文地址:/abs/
demo 地址:/polyvoice/
語音到語音翻譯(S2ST)是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因?yàn)樗枰瑫r(shí)解決自動(dòng)語音識(shí)別(ASR),機(jī)器翻譯(MT)和文本到語音合成(TTS)中的所有難題。與傳統(tǒng)的級(jí)聯(lián)方法不同,直接建模的方法具有低延遲和簡化 pipeline 的優(yōu)點(diǎn)?,F(xiàn)有的 S2ST 直接建模的方法可以根據(jù)模型是預(yù)測(cè)連續(xù)的梅爾譜圖特征還是離散單元進(jìn)一步分類。近來,基于 units 的方法變得越來越受歡迎,有如下幾點(diǎn)原因:
(1)基于 units 的方法可以將語音的離散單元視為一種 “偽語言”,可以適用現(xiàn)有的 NLP 技術(shù);
(2)基于 units 的方法緩解了譜圖的學(xué)習(xí)難度;
(3)基于 units 的方法可以通過無監(jiān)督的方式獲取離散單元,可以對(duì)非書寫語言進(jìn)行建模。
Semantic Units 和 Acoustic Units 是兩種常用的語音離散單元。Semantic Units 主要用于捕獲語音中的語義內(nèi)容。Acoustic Units 也可以被稱為 Codec Units,最初用于在有限的帶寬下傳輸高質(zhì)量的語音信號(hào)。
PolyVoice 介紹
PolyVoice 是一種基于語言模型的 S2ST 框架,能夠處理書寫和非書寫語言。PolyVoice 使用通過自監(jiān)督訓(xùn)練方法獲得的離散單元作為源語音和目標(biāo)語音之間的中間表示。PolyVoice 由兩部分組成:
Speech-to-Unit(S2UT)翻譯模塊,將源語言語音的離散單元轉(zhuǎn)換為目標(biāo)語言語音的離散單元;
Unit-to-Speech(U2S)合成模塊, 在保留源語言語音說話人風(fēng)格的同時(shí)合成目標(biāo)語言語音。
下圖是 PolyVoice 的整體架構(gòu):
Speech-to-Unit(S2UT)翻譯模塊
通過使用通過自監(jiān)督訓(xùn)練獲得的離散單元,從連續(xù)語音表示中去除語義無關(guān)的信息。S2UT 利用語言模型學(xué)習(xí)基于語音離散單元的跨語言生成。
1. Semantic Unit Extractor:S2UT 通過 Semantic Unit Extractor 對(duì)原始語音進(jìn)行處理。首先使用 k-means 聚類離散化 HuBERT 輸出的連續(xù)表示,進(jìn)而合并重復(fù) units 的連續(xù)序列來壓縮序列長度,這樣可以減少計(jì)算成本,并有助于收斂。
2. 基于 units 的跨語言語言模型(U-XLM):U-XLM 將源語言 units “{src_unit}” 翻譯為目標(biāo)語言 units “{tgt_unit}”。U-XLM 的 prompt 形式可定義為:Translate [src lang] unit “{src_unit}” to [tgt lang] unit: “{tgt_unit}”。
3. S2UT 的訓(xùn)練:為了解決在現(xiàn)實(shí)場(chǎng)景下跨語言 units 平行數(shù)據(jù)稀缺的問題,如下表所示,PolyVoice 適配地修改了提示符,為各種類型的數(shù)據(jù)源(例如 ASR, MT 等)構(gòu)建訓(xùn)練樣本,然后通過參數(shù)共享的方式訓(xùn)練模型。
U-XLM 有幾個(gè)突出特性,有處理書寫和非書寫語言的能力、多語言建模功能,以及通過利用大量無標(biāo)注數(shù)據(jù)進(jìn)行 zero-shot 預(yù)測(cè)的能力。這些特性使 U-XLM 成為推進(jìn)語音到語音翻譯研究的一個(gè)有潛力的框架。
Unit-to-Speech(U2S)合成模塊
1. Unit-to-Speech 語言模型(U-SLM):與 VALL-E 一樣,U-SLM 也包括一個(gè)自回歸模型和一個(gè)非自回歸模型。在 PolyVoice 中,輸入為源語言和目標(biāo)語言的 Semantic Units 以及包含源說話人說話風(fēng)格的 Codec Units。
2. SoundStream codec:SoundStream 的 encoder 用于生成包含源說話人說話風(fēng)格的 Codec Units,decoder 將 U-SLM 預(yù)測(cè)的 Acoustic Units 重構(gòu)為語音波形。
3. Duration model:離散單元的時(shí)長信息對(duì)于合成語音的穩(wěn)定性非常重要。PolyVoice 使用 LM 來預(yù)測(cè)時(shí)長信息。具體地,如上圖右下角所示,合并后的源 Semantic Units、合并后的目標(biāo) Semantic Units 和源時(shí)長值序列(D)作為提示輸入到 Duration LM 中。Duration LM 基于輸入的提示信息預(yù)測(cè)目標(biāo)時(shí)長值序列,并對(duì)每個(gè)目標(biāo) Semantic Units 進(jìn)行相應(yīng)次數(shù)的重復(fù)操作。
實(shí)驗(yàn)分析
作者在兩個(gè) S2ST 基準(zhǔn)數(shù)據(jù)集 EMIME 和 CVSS 上驗(yàn)證了 PolyVoice 的性能。
S2ST 實(shí)驗(yàn)
ASV 評(píng)分用來評(píng)估在輸出語音中保留源說話人音色的能力,ASR-BLEU 用來測(cè)評(píng)翻譯質(zhì)量。通過實(shí)驗(yàn)作者給出了一些結(jié)論:
1. 當(dāng)真實(shí)的目標(biāo)翻譯序列可用時(shí),PolyVoice 展示了更好的語音克隆能力。
2. PolyVoice 在翻譯質(zhì)量方面略有下降,但在語音質(zhì)量方面有顯著的提升。翻譯質(zhì)量下降可能是由于無監(jiān)督的音頻離散化會(huì)引入信息損失。語音自然度提升則可能是因?yàn)榇笠?guī)模語言模型的數(shù)據(jù)容納能力可以帶來更好的生成效果。
為了驗(yàn)證 PolyVoice 在非書寫語言上的有效性,作者在不使用西班牙語的任何文本監(jiān)督情況下,評(píng)估了一個(gè)英語→西班牙語 S2ST 系統(tǒng),ASR-BLEU()的結(jié)果表明 PolyVoice 生成的西班牙語語音在語義上是可理解的。
分析和消融實(shí)驗(yàn)
1. Decoder-only 和 Encoder-Decoder 兩種框架的對(duì)比
Decoder-only 模型帶來了 個(gè) BLEU 的顯著改進(jìn),當(dāng)用 U2S 代替聲碼器合成語音時(shí),縮小了性能差距,證明了 U2S 后端的魯棒性。
2. 多任務(wù)訓(xùn)練
U-XLM 在涉及的多個(gè)任務(wù)(包括 S2ST、ASR、ST、MT 和 TTS)上都取得了可觀的性能,驗(yàn)證了 Decoder-only 框架的通用建模能力。
3. U2S 模塊的優(yōu)化
從實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)從 U2S 中去掉時(shí)長模型,WER 會(huì)急劇增加,可能是由于 units 本身不包含與音素一樣多的時(shí)長信息。因此,在使用無監(jiān)督訓(xùn)練得到的離散單元時(shí),時(shí)長模型是必不可少的。此外,作者額外訓(xùn)練了一個(gè)中英的多語言 HuBERT 模型(mHuBERT_zh_en)作為 Semantic Unit Extractor,實(shí)驗(yàn)對(duì)比發(fā)現(xiàn)更大的模型可能會(huì)生成更好的 Semantic Units。
結(jié)論
PolyVoice 是一個(gè)基于語音離散單元的 S2ST 框架。實(shí)驗(yàn)結(jié)果表明,基于 units 的 S2ST 系統(tǒng)在 ASR-BLEU、ASV 和自然度方面優(yōu)于現(xiàn)有系統(tǒng)。此外,作者還證明了 PolyVoice 在不使用文本信息監(jiān)督的情況下在非書寫語言場(chǎng)景中的能力。由于 PolyVoice 性能與語音離散單元的質(zhì)量高度相關(guān),未來的工作將持續(xù)研究如何更好地進(jìn)行語音離散化。
?THE END
轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)
投稿或?qū)で髨?bào)道:content@
關(guān)鍵詞: