中文引用格式: 于惠鈞,鄒志豪,,康帥. 基于SAM和pix2pix的商品數(shù)據(jù)集生成網(wǎng)絡(luò)[J]. 電子技術(shù)應(yīng)用,,2025,51(4):23-28.
英文引用格式: Yu Huijun,,Zou Zhihao,,Kang Shuai. Product data set generation network based on SAM and pix2pix[J]. Application of Electronic Technique,2025,,51(4):23-28.
引言
在現(xiàn)代零售和無人結(jié)算系統(tǒng)中[1],商品識別技術(shù)[2]的準(zhǔn)確性和效率對于提升用戶體驗(yàn)和優(yōu)化商業(yè)運(yùn)營至關(guān)重要,。然而,,隨著商品包裝的快速變化,數(shù)據(jù)集的采集和標(biāo)注工作變得愈發(fā)復(fù)雜和耗時(shí),,數(shù)據(jù)集的缺少[3]成為制約商品識別模型性能和應(yīng)用的主要瓶頸,。傳統(tǒng)的數(shù)據(jù)集生成方法依賴大量人工標(biāo)注,不僅耗費(fèi)大量人力和時(shí)間,,而且數(shù)據(jù)集更新不及時(shí),,無法適應(yīng)市場中商品包裝的頻繁變化,導(dǎo)致模型的泛化能力不足,,識別精度下降,。
目前,盡管一些數(shù)據(jù)集增強(qiáng)方法已經(jīng)在圖像識別領(lǐng)域取得了進(jìn)展,,但它們在應(yīng)對商品包裝快速變化方面仍然面臨諸多挑戰(zhàn),。首先,現(xiàn)有的商品識別模型大多依賴于靜態(tài)數(shù)據(jù)集,,這些數(shù)據(jù)集無法涵蓋所有可能的商品包裝變化,。其次,數(shù)據(jù)集的多樣性和豐富性對模型的訓(xùn)練效果至關(guān)重要,,但現(xiàn)有方法在生成具有高度真實(shí)感的多樣化數(shù)據(jù)集時(shí)表現(xiàn)有限,。此外,隨著商品種類的增加和市場變化的加速,,傳統(tǒng)數(shù)據(jù)集生成方式顯得尤為笨重,,難以滿足實(shí)際應(yīng)用的需求。因此,,如何有效生成與實(shí)際結(jié)算場景相似的數(shù)據(jù)集,,以提高商品識別模型的魯棒性和識別精度,成為當(dāng)前亟需解決的問題,。
為了解決商品數(shù)據(jù)集采集和標(biāo)注工作的繁瑣問題,,本文提出了一種基于分割一切模型(Segment Anything Model,SAM)[4]和圖像到圖像轉(zhuǎn)換網(wǎng)絡(luò)(Pixel to Pixel,pix2pix)[5]的商品數(shù)據(jù)集生成網(wǎng)絡(luò),旨在突破傳統(tǒng)數(shù)據(jù)集生成中的瓶頸,。該網(wǎng)絡(luò)以單個(gè)商品的多角度圖像作為輸入,,首先利用基于SAM改進(jìn)的圖像分割網(wǎng)絡(luò),從單個(gè)商品多角度圖像中精準(zhǔn)提取出包含目標(biāo)商品的部分,。提取后的商品目標(biāo)圖像經(jīng)過姿態(tài)擬合后,,隨機(jī)擺列組合形成商品拼接圖像,。最后,,這些拼接圖像通過基于pix2pix的圖像生成網(wǎng)絡(luò)轉(zhuǎn)換為接近實(shí)際結(jié)算場景的商品結(jié)算圖像,。
由于單個(gè)商品的多角度圖像易于獲得,,并且同一角度的商品只需標(biāo)注一次,這種方法能夠生成多種拼接圖像,,擴(kuò)展商品擺放的多樣性,,以應(yīng)對實(shí)際結(jié)算中不同商品擺放的情況。此外,,基于pix2pix的圖像生成網(wǎng)絡(luò)可以針對各種實(shí)際結(jié)算場景進(jìn)行訓(xùn)練,,從而有效降低環(huán)境因素對商品識別準(zhǔn)確率的影響。這一系列優(yōu)化措施使得商品識別系統(tǒng)在快速變化的商業(yè)環(huán)境中更加靈活和準(zhǔn)確
本文詳細(xì)內(nèi)容請下載:
http://wldgj.com/resource/share/2000006389
作者信息:
于惠鈞1,,2,,鄒志豪1,康帥1
(1.湖南工業(yè)大學(xué) 軌道交通學(xué)院,,湖南 株洲 412007,;
2.湖南工業(yè)大學(xué) 電氣與信息工程學(xué)院,湖南 株洲 412007)