微軟公布SLM小語言AI模型最新成員Phi-3-vision-AET-電子技術(shù)應(yīng)用

微軟公布SLM小語言AI模型最新成員Phi-3-vision

參數(shù)量42億

日期： 2024-05-27

來源：IT之家

關(guān)鍵詞： 微軟 SLM小語言 Phi-3-vision

5 月 26 日消息，微軟近日公布了旗下小語言 AI 模型家族（SLM）最新成員 "Phi-3-vision"，這款模型主打 " 視覺能力 "，能夠理解圖文內(nèi)容，同時據(jù)稱可以在移動平臺上流暢高效運(yùn)行。

據(jù)介紹，Phi-3-vision 是微軟 Phi-3 家族首款多模態(tài)模型，該模型的文字理解能力基于 Phi-3-mini，同時也具備 Phi-3-mini 的輕量特點(diǎn)，能夠在移動平臺 / 嵌入終端中運(yùn)行；該模型參數(shù)量為 42 億，大于 Phi-3-mini（3.8B），但小于 Phi-3-small（7B），上下文長度為 128k token，訓(xùn)練期間為 2024 年 2 月至 4 月。

Phi-3-vision 模型的最大特色正如其名，主要支持 " 圖文識別能力 "，號稱能夠理解現(xiàn)實(shí)世界的圖片含義，還能快速識別提取圖片中的文字。

微軟表示，Phi-3-vision 特別適合辦公場合，開發(fā)人員特別優(yōu)化了該模型在識別圖表和方塊圖 ( Block diagram ) 方面的理解能力，據(jù)稱可以利用用戶輸入的信息進(jìn)行推論，同時還能做出一系列結(jié)論，為企業(yè)提供戰(zhàn)略建議，號稱 " 效果比肩大模型 "。

在模型訓(xùn)練方面，微軟聲稱 Phi-3-vision 是由 " 多種類型圖片及文字?jǐn)?shù)據(jù)訓(xùn)練而成 "，包括一系列 " 經(jīng)過嚴(yán)選的公開內(nèi)容 "，例如 " 教科書等級 " 教育材料、代碼、圖文標(biāo)注數(shù)據(jù)、現(xiàn)實(shí)世界知識、圖表圖片、聊天格式等內(nèi)容，從而確保模型輸入內(nèi)容的多樣性。為了確保隱私，微軟聲稱他們所使用的訓(xùn)練數(shù)據(jù) " 可追溯 " 不包含任何個人信息。

性能方面，微軟提供了 Phi-3-vision 相較于字節(jié)跳動 Llama3-Llava-Next（8B）、微軟研究院和威斯康星大學(xué)、哥倫比亞大學(xué)合作的 LlaVA-1.6（7B）、阿里巴巴通義千問 QWEN-VL-Chat 模型等競品模型的比較圖表，其中顯示 Phi-3-vision 模型在多個項(xiàng)目上表現(xiàn)優(yōu)異。

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

微軟公布SLM小語言AI模型最新成員Phi-3-vision

日期： 2024-05-27

來源：IT之家

相關(guān)內(nèi)容