記者23日從內(nèi)蒙古大學(xué)計(jì)算機(jī)學(xué)院獲悉,該院劉瑞研究員所在科研團(tuán)隊(duì)與日本大阪大學(xué)科學(xué)與工業(yè)研究所科研團(tuán)隊(duì)合作,在國(guó)際信號(hào)處理領(lǐng)域TOP期刊《IEEE/ACM音頻、語(yǔ)音和語(yǔ)言處理會(huì)刊》發(fā)表了“通過(guò)源濾波網(wǎng)絡(luò)將獨(dú)立于說(shuō)話人的情感解耦以進(jìn)行語(yǔ)音轉(zhuǎn)換”的最新研究成果。
據(jù)介紹,情感語(yǔ)音轉(zhuǎn)換(VC)旨在將中性語(yǔ)音轉(zhuǎn)換為情感聲音,同時(shí)保留語(yǔ)言信息和說(shuō)話者的身份??蒲袌F(tuán)隊(duì)注意到,將情感特征與其他語(yǔ)音信息(例如內(nèi)容、說(shuō)話者身份等)解耦是實(shí)現(xiàn)高質(zhì)量轉(zhuǎn)換效果的關(guān)鍵。由于情感語(yǔ)音中聲學(xué)特征的解耦更加復(fù)雜,面向中性語(yǔ)音的特征解耦一直無(wú)法得到很好的處理。
科研團(tuán)隊(duì)針對(duì)情感語(yǔ)音轉(zhuǎn)換的聲學(xué)特征解耦問(wèn)題開(kāi)展研究,提出了一種基于“源—濾波器”模型的情感語(yǔ)音轉(zhuǎn)換系統(tǒng),具體來(lái)說(shuō),是為了解決情感語(yǔ)音轉(zhuǎn)換的特征解耦問(wèn)題而提出一種新穎的基于“源—濾波器”模型的情感VC模型(簡(jiǎn)稱SFEVC),以從音色和音調(diào)特征中準(zhǔn)確過(guò)濾說(shuō)話人獨(dú)立的情感線索。SFEVC模型由多通道編碼器、情感獨(dú)立編碼器、預(yù)訓(xùn)練的說(shuō)話人相關(guān)編碼器和相應(yīng)的解碼器組成。所有編碼器模塊都采用信息瓶頸自動(dòng)編碼器。
為了進(jìn)一步提高各種情緒的轉(zhuǎn)化質(zhì)量,研究團(tuán)隊(duì)還提出了基于二維VA(激活度—效價(jià))空間的訓(xùn)練策略。實(shí)驗(yàn)結(jié)果表明,SFEVC模型以及VA訓(xùn)練策略的表現(xiàn)均優(yōu)于所有基線系統(tǒng),并基于非平行數(shù)據(jù)在說(shuō)話人無(wú)關(guān)的情感VC場(chǎng)景下實(shí)現(xiàn)了最優(yōu)性能。 (記者張景陽(yáng)通訊員胡紅波)
標(biāo)簽: 情感解耦 情感語(yǔ)音轉(zhuǎn)換技術(shù) 情感語(yǔ)音轉(zhuǎn)換 情感VC模型