中文引用格式: 顧明珠,,明瑞成,邱創(chuàng)一,,等. 一種多教師模型知識(shí)蒸餾深度神經(jīng)網(wǎng)絡(luò)模型壓縮算法[J]. 電子技術(shù)應(yīng)用,,2023,,49(8):7-12.
英文引用格式: Gu Mingzhu,Ming Ruicheng,,Qiu Chuangyi,,et al. A multi-teacher knowledge distillation model compression algorithm for deep neural network[J]. Application of Electronic Technique,2023,,49(8):7-12.
0 引言
隨著人工智能技術(shù)發(fā)展,,要將越來(lái)越龐大的的模型部署到實(shí)際的工業(yè)社會(huì)中時(shí),相應(yīng)硬件的算力要求和存儲(chǔ)要求成為了最大障礙,。因此,為加快人工智能技術(shù)在社會(huì)生活和工業(yè)的廣泛使用,,越來(lái)越多的學(xué)者們對(duì)深度學(xué)習(xí)模型進(jìn)行輕量化壓縮進(jìn)行研究[1],,而知識(shí)蒸餾方法已然成為比較主流的模型輕量化方法[2]。
知識(shí)蒸餾是指利用已經(jīng)訓(xùn)練好的大型深度學(xué)習(xí)模型輔助訓(xùn)練出一個(gè)小型模型,,其中大型模型稱為教師模型,,起到監(jiān)督和輔助小型模型訓(xùn)練的作用。小型模型稱為學(xué)生模型,,接受來(lái)自教師模型的知識(shí),,并最終用于實(shí)際部署。2015年Hinton[3]首次提出了知識(shí)蒸餾這一概念以來(lái),,研究者們開始對(duì)壓縮后如何保證學(xué)生模型精度這一問題進(jìn)行研究,。知識(shí)蒸餾從教師模型規(guī)模分為單教師模型的蒸餾和多教師模型知識(shí)蒸餾兩類。單教師模型即只使用一個(gè)教師模型對(duì)學(xué)生模型進(jìn)行蒸餾,,如Romero[4]將學(xué)生模型的網(wǎng)絡(luò)設(shè)計(jì)成較細(xì)且層數(shù)較深的形狀,,并且將學(xué)生模型和教師模型的特征層連接,,讓學(xué)生模型從教師模型的特征層提層知識(shí)。Chen[5]等在蒸餾中加入GAN結(jié)構(gòu),,模擬原始數(shù)據(jù)集擴(kuò)大數(shù)據(jù)量提供給新的模型進(jìn)行知識(shí)蒸餾,。Liu[6]等人將NAS引入知識(shí)蒸餾,根據(jù)教師模型結(jié)構(gòu)從NAS中選擇最契合的學(xué)生網(wǎng)絡(luò)與之匹配以達(dá)到最佳蒸餾效果,,但NAS需要巨大內(nèi)存使該方法難以大面積推廣,。Dai[7]等提出利用教師模型和學(xué)生模型預(yù)測(cè)實(shí)例的差異,提出實(shí)例差異的評(píng)估指標(biāo),,并利用可區(qū)分的實(shí)例進(jìn)行蒸餾,。知識(shí)蒸餾中學(xué)生網(wǎng)絡(luò)的知識(shí)大部分來(lái)源于教師模型,因此由單個(gè)教師模型知識(shí)蒸餾得到的學(xué)生模型精度上限受限于對(duì)應(yīng)的教師模型,,難以有很大提升,。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://wldgj.com/resource/share/2000005484
作者信息:
顧明珠1,2,,明瑞成2,,邱創(chuàng)一1,2,,王新文1,,2
(1.福州大學(xué) 先進(jìn)制造學(xué)院,福建 泉州 362000,;2.中國(guó)科學(xué)院海西研究院泉州裝備制造研究中心,,福建 泉州 362000)