中文引用格式: 于惠鈞,,鄒志豪,,康帥. 基于SAM和pix2pix的商品數(shù)據(jù)集生成網(wǎng)絡[J]. 電子技術應用,2025,,51(4):23-28.
英文引用格式: Yu Huijun,,Zou Zhihao,Kang Shuai. Product data set generation network based on SAM and pix2pix[J]. Application of Electronic Technique,,2025,,51(4):23-28.
引言
在現(xiàn)代零售和無人結算系統(tǒng)中[1],,商品識別技術[2]的準確性和效率對于提升用戶體驗和優(yōu)化商業(yè)運營至關重要。然而,,隨著商品包裝的快速變化,,數(shù)據(jù)集的采集和標注工作變得愈發(fā)復雜和耗時,數(shù)據(jù)集的缺少[3]成為制約商品識別模型性能和應用的主要瓶頸,。傳統(tǒng)的數(shù)據(jù)集生成方法依賴大量人工標注,,不僅耗費大量人力和時間,而且數(shù)據(jù)集更新不及時,,無法適應市場中商品包裝的頻繁變化,,導致模型的泛化能力不足,識別精度下降,。
目前,,盡管一些數(shù)據(jù)集增強方法已經(jīng)在圖像識別領域取得了進展,但它們在應對商品包裝快速變化方面仍然面臨諸多挑戰(zhàn),。首先,,現(xiàn)有的商品識別模型大多依賴于靜態(tài)數(shù)據(jù)集,這些數(shù)據(jù)集無法涵蓋所有可能的商品包裝變化,。其次,,數(shù)據(jù)集的多樣性和豐富性對模型的訓練效果至關重要,但現(xiàn)有方法在生成具有高度真實感的多樣化數(shù)據(jù)集時表現(xiàn)有限,。此外,,隨著商品種類的增加和市場變化的加速,傳統(tǒng)數(shù)據(jù)集生成方式顯得尤為笨重,,難以滿足實際應用的需求,。因此,,如何有效生成與實際結算場景相似的數(shù)據(jù)集,以提高商品識別模型的魯棒性和識別精度,,成為當前亟需解決的問題,。
為了解決商品數(shù)據(jù)集采集和標注工作的繁瑣問題,本文提出了一種基于分割一切模型(Segment Anything Model,SAM)[4]和圖像到圖像轉換網(wǎng)絡(Pixel to Pixel,pix2pix)[5]的商品數(shù)據(jù)集生成網(wǎng)絡,,旨在突破傳統(tǒng)數(shù)據(jù)集生成中的瓶頸,。該網(wǎng)絡以單個商品的多角度圖像作為輸入,首先利用基于SAM改進的圖像分割網(wǎng)絡,,從單個商品多角度圖像中精準提取出包含目標商品的部分,。提取后的商品目標圖像經(jīng)過姿態(tài)擬合后,隨機擺列組合形成商品拼接圖像,。最后,,這些拼接圖像通過基于pix2pix的圖像生成網(wǎng)絡轉換為接近實際結算場景的商品結算圖像。
由于單個商品的多角度圖像易于獲得,,并且同一角度的商品只需標注一次,,這種方法能夠生成多種拼接圖像,擴展商品擺放的多樣性,,以應對實際結算中不同商品擺放的情況,。此外,基于pix2pix的圖像生成網(wǎng)絡可以針對各種實際結算場景進行訓練,,從而有效降低環(huán)境因素對商品識別準確率的影響,。這一系列優(yōu)化措施使得商品識別系統(tǒng)在快速變化的商業(yè)環(huán)境中更加靈活和準確
本文詳細內(nèi)容請下載:
http://wldgj.com/resource/share/2000006389
作者信息:
于惠鈞1,2,,鄒志豪1,,康帥1
(1.湖南工業(yè)大學 軌道交通學院,湖南 株洲 412007,;
2.湖南工業(yè)大學 電氣與信息工程學院,,湖南 株洲 412007)