6月11日消息,中國(guó)信息通信研究院公布了可信 AI 代碼大模型評(píng)估的首輪評(píng)估名單,,阿里云通義靈碼,、華為云盤古、智譜 codegeex 等國(guó)產(chǎn) AI 大模型均入選并首批通過,。
此次大模型評(píng)估以《智能化軟件工程技術(shù)和應(yīng)用要求 第 1 部分:代碼大模型》標(biāo)準(zhǔn)為依據(jù),,圍繞通用能力、專用場(chǎng)景能力,、應(yīng)用成熟度,,為模型能力提升和企業(yè)選型提供規(guī)范性參考。
注:《智能化軟件工程技術(shù)和應(yīng)用要求 第 1 部分:代碼大模型》(標(biāo)準(zhǔn)編號(hào) AIIA / PG 0110-2023)標(biāo)準(zhǔn)于 2024 年 1 月 25 日正式發(fā)布,,該標(biāo)準(zhǔn)由中國(guó)信通院與中國(guó)工商銀行聯(lián)合牽頭發(fā)起,,涵蓋通用能力、專用場(chǎng)景能力和應(yīng)用成熟度三大部分,,包括 100 多個(gè)能力要求,。
此次驗(yàn)證,依據(jù)標(biāo)準(zhǔn)開展,,評(píng)價(jià)指標(biāo)覆蓋 6 大通用能力場(chǎng)景,、7 大專用能力場(chǎng)景、3 大服務(wù)成熟度,,多維度驗(yàn)證研發(fā)大模型在研發(fā)場(chǎng)景能力和人效優(yōu)化效果方面的場(chǎng)景豐富度,,重點(diǎn)考察研發(fā)大模型在代碼理解、代碼生成和補(bǔ)全,、研發(fā)問答,、單元測(cè)試用例生成等方面的能力支持度,全方位評(píng)估研發(fā)大模型在數(shù)據(jù)合規(guī)性,、模型成熟度,、服務(wù)成熟度方面的應(yīng)用成熟度。
目前,,華為云盤古大模型,、智譜 CodeGeeX 代碼大模型,、阿里云 AI 編程助手通義靈碼、中國(guó)電信星辰政務(wù)大模型等首批通過評(píng)估,,并在全部 100 多個(gè)能力評(píng)估中表現(xiàn)優(yōu)秀,,獲得 4 + 評(píng)級(jí)。
以阿里云通義靈碼為例,,信通院評(píng)測(cè)結(jié)果顯示:
在通用能力方面,,通義靈碼在代碼轉(zhuǎn)換、代碼檢查及修復(fù),、代碼優(yōu)化等方面表現(xiàn)突出,;
在專用場(chǎng)景方面,通義靈碼提供網(wǎng)站開發(fā),、數(shù)據(jù)庫(kù)開發(fā),、大數(shù)據(jù)開發(fā)、嵌入式開發(fā)等多個(gè)場(chǎng)景支持能力,;
在應(yīng)用成熟度方面,,通義靈碼具備較完善的數(shù)據(jù)合規(guī)及數(shù)據(jù)分類分級(jí)機(jī)制,且模型穩(wěn)定性及可維護(hù)性表現(xiàn)優(yōu)異,,在模型推理性能,、模型服務(wù)風(fēng)險(xiǎn)可控性等方面均表現(xiàn)優(yōu)秀。
公開資料顯示,,AI 代碼大模型首輪評(píng)估于今年 3 月啟動(dòng),,主要面向適用于金融、科技,、互聯(lián)網(wǎng),、電信、軟件等各行業(yè),,生產(chǎn),、使用或計(jì)劃使用代碼大模型的企業(yè),評(píng)估結(jié)果旨在為模型廠商提供代碼大模型能力的評(píng)價(jià)和指導(dǎo)標(biāo)準(zhǔn),,以及為模型應(yīng)用方提供有效衡量其能力水平的標(biāo)準(zhǔn)依據(jù),。