IT之家 11 月 6 日消息,meta 在一篇博客中公布了全新得開(kāi)源音頻壓縮技術(shù) EnCodec,號(hào)稱壓縮文件大小比 MP3 格式小 10 倍。
據(jù)介紹,meta 旗下基礎(chǔ)人工智能研究 (FAIR) 團(tuán)隊(duì)在 AI 驅(qū)動(dòng)得音頻超壓縮領(lǐng)域取得了成功,構(gòu)建了一個(gè)由三部分組成得系統(tǒng),并對(duì)其進(jìn)行端到端訓(xùn)練,以將音頻數(shù)據(jù)壓縮到目標(biāo)大小,然后可以使用神經(jīng)網(wǎng)絡(luò)對(duì)這些數(shù)據(jù)進(jìn)行解碼。
與 64 kbps 得 MP3 相比,meta 得新技術(shù) EnCodec 實(shí)現(xiàn)了大約 10 倍得壓縮率,而且沒(méi)有質(zhì)量損失。
EnCodec 得三部分包括:
編碼器:獲取未壓縮得數(shù)據(jù)并將其轉(zhuǎn)換為更高維度和更低幀率得表示(representation)。
量化器:將這個(gè)表示壓縮到目標(biāo)大小,通過(guò)訓(xùn)練量化器給想要得大小(或大小集),同時(shí)保留最重要得信息來(lái)重建原始信號(hào)。這種壓縮表示是存儲(chǔ)在磁盤(pán)上或通過(guò)網(wǎng)絡(luò)發(fā)送得,相當(dāng)于計(jì)算機(jī)上得 .mp3 文件。
解碼器:將壓縮信號(hào)轉(zhuǎn)換回與原始信號(hào)盡可能相似得波形,有損壓縮得關(guān)鍵是識(shí)別人類無(wú)法感知得變化,因?yàn)樵诘捅忍芈氏峦昝赖弥亟ㄊ遣豢赡艿谩榇耍珽nCodec 使用鑒別器來(lái)提高生成樣本得感知質(zhì)量,創(chuàng)建了一個(gè)類似貓捉老鼠得,其中鑒別器得工作是區(qū)分真實(shí)樣本和重建樣本。壓縮模型試圖通過(guò)推動(dòng)重建得樣本在感知上與原始樣本更加相似來(lái)生成樣本來(lái)欺騙鑒別器。
IT之家了解到,meta 表示,該技術(shù)尚未涵蓋視頻,但目前已在計(jì)劃中,其目標(biāo)是改進(jìn)視頻會(huì)議、流電影以及在 VR 中與朋友玩等得音頻體驗(yàn)。
論文地址:點(diǎn)此查看
GitHub 開(kāi)源頁(yè)面:點(diǎn)此查看