通義千問繼續(xù)開源多模態(tài)模型-AET-電子技術(shù)應(yīng)用

通義千問繼續(xù)開源多模態(tài)模型

Qwen2-Audio音頻理解能力刷新行業(yè)最佳水平

日期： 2024-08-14

來源：雷鋒網(wǎng)

關(guān)鍵詞： 通義千問多模態(tài)模型 Qwen2-Audio

8 月 13 日消息，阿里通義大模型繼續(xù)開源，Qwen2 系列開源家族新增音頻語言模型 Qwen2-Audio。Qwen2-Audio 可以不需文本輸入，直接進(jìn)行語音問答，理解并分析用戶輸入的音頻信號(hào)，包括人聲、自然音、音樂等。該模型在多個(gè)權(quán)威測(cè)評(píng)中都顯著超越先前的最佳模型。通義團(tuán)隊(duì)還同步推出了一套全新的音頻理解模型測(cè)評(píng)基準(zhǔn)，相關(guān)論文已入選本周正在舉辦的國(guó)際頂會(huì) ACL 2024。

聲音是人類以及許多生命體用以進(jìn)行交互和溝通的重要媒介，聲音中蘊(yùn)含豐富的信息，讓大模型學(xué)會(huì)理解各種音頻信號(hào)，對(duì)于通用人工智能的探索至為重要。Qwen2-Audio 是通義團(tuán)隊(duì)在音頻理解模型上的新一步探索，相比前一代模型 Qwen-Audio，新版模型有了更強(qiáng)的聲音理解能力和更好的指令跟隨能力。

Qwen2-Audio 可以理解分析音樂

Qwen2-Audio 是一款大型音頻語言模型（Large Audio-Language Model ，LALM ) ，具備語音聊天和音頻分析兩種使用模式，前者是指用戶可以用語音向模型發(fā)出指令，模型無需自動(dòng)語音識(shí)別（ASR）模塊就可理解用戶輸入；后者是指模型能夠根據(jù)用戶指令分析音頻信息，包括人類聲音、自然聲音、音樂或者多種信號(hào)混雜的音頻。Qwen2-Audio 能夠自動(dòng)實(shí)現(xiàn)兩種模式的切換。Qwen2-Audio 支持超過 8 種語言和方言，如中文、英語、法語、意大利語、西班牙語、德語、日語，粵語。

通義團(tuán)隊(duì)同步開源了基礎(chǔ)模型 Qwen2-Audio-7B 及其指令跟隨版本 Qwen2-Audio-7B-Instruct，用戶可以通過 Hugging Face、魔搭社區(qū) ModelScope 等下載模型，也可以在魔搭社區(qū) " 創(chuàng)空間 " 直接體驗(yàn)?zāi)Ｐ湍芰Α?/p>

Qwen2-Audio 的模型結(jié)構(gòu)與訓(xùn)練方法

根據(jù) Qwen2-Audio 技術(shù)報(bào)告，Qwen2-Audio 的模型結(jié)構(gòu)包含一個(gè) Qwen 大語言模型和一個(gè)音頻編碼器。在預(yù)訓(xùn)練階段，依次進(jìn)行 ASR、AAC 等多任務(wù)預(yù)訓(xùn)練以實(shí)現(xiàn)音頻與語言的對(duì)齊，接著通過 SFT（監(jiān)督微調(diào)）強(qiáng)化模型處理下游任務(wù)的能力，再通過 DPO（直接偏好優(yōu)化）方法加強(qiáng)模型與人類偏好的對(duì)齊。

研發(fā)團(tuán)隊(duì)在一系列基準(zhǔn)測(cè)試集上對(duì)模型效果作了評(píng)估，包括 LibriSpeech、Common Voice 15、Fleurs、Aishell2、CoVoST2、Meld、Vocalsound 以及通義團(tuán)隊(duì)新開發(fā)的 AIR-Benchmark 基準(zhǔn)。在所有任務(wù)中，Qwen2-Audio 都顯著超越了先前的最佳模型和它的前代 Qwen-Audio，成為新的 SOTA 模型。

Qwen2-Audio 在多個(gè)測(cè)評(píng)中都顯著超越了先前的最佳模型

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請(qǐng)及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

通義千問繼續(xù)開源多模態(tài)模型

日期： 2024-08-14

來源：雷鋒網(wǎng)

相關(guān)內(nèi)容