|
神經(jīng)聲碼器采樣端到端神經(jīng)音頻編解碼框架,核心架構(gòu)采用Encoder–Quantizer–Decoder三級(jí)結(jié)構(gòu)。
算法在編碼端通常基于一維卷積網(wǎng)絡(luò),將時(shí)域波形映射到低維連續(xù)潛在表示;隨后通過殘差向量量化(Residual Vector Quantization, RVQ)進(jìn)行多級(jí)離散化,將連續(xù)表示壓縮為有限碼本索引,實(shí)現(xiàn)可控碼率(如0.6–24 kbps);最后由對(duì)稱結(jié)構(gòu)的解碼器重構(gòu)時(shí)域波形。訓(xùn)練階段采用端到端優(yōu)化策略,損失函數(shù)通常包含多尺度STFT損失 + 感知對(duì)抗損失,判別器用于提升主觀音質(zhì)。
這種時(shí)域卷積自編碼 + 殘差向量量化壓縮 + 感知對(duì)抗訓(xùn)練優(yōu)化,適合設(shè)計(jì)低碼率神經(jīng)聲碼器。通過端到端的建模方式,結(jié)合頻率域與時(shí)域的聯(lián)合約束,使其在感知質(zhì)量上顯著優(yōu)于傳統(tǒng)參數(shù)化聲碼器。
|