半導(dǎo)體制程邁入20奈米以下技術(shù)節(jié)點(diǎn)后,,良率,、生產(chǎn)周期及成本管控的挑戰(zhàn)更加艱鉅;新式Hadoop資料儲(chǔ)存架構(gòu)可讓半導(dǎo)體廠以更低成本達(dá)成巨量資料儲(chǔ)存,,進(jìn)而利用深入的統(tǒng)計(jì)分析實(shí)現(xiàn)更精準(zhǔn)有效的設(shè)備管理,,提高產(chǎn)線運(yùn)作效率。
近年來,,為收集更多感測(cè)器資料,,長(zhǎng)時(shí)間保留資料,并加以有效運(yùn)用,,制造商面對(duì)不斷加重的挑戰(zhàn),。例如最先進(jìn)晶圓廠的工具感測(cè)器和故障偵測(cè)生產(chǎn)資料庫,保留資料1至3個(gè)月需要20?30兆位元組的儲(chǔ)存容量,。隨著產(chǎn)業(yè)轉(zhuǎn)移至20奈米以下技術(shù)制造和新世代工具,,情況將加劇。
收集和儲(chǔ)存資料,,對(duì)于達(dá)到必要的良率,、生產(chǎn)周期時(shí)間和成本至關(guān)重要,但這只是資料問題的一部分,。另外更重要的是,,如何經(jīng)由快速及具成本效益來分析這些資料,改善機(jī)臺(tái)的效能和工廠產(chǎn)出的良率即時(shí)的資料分析,,對(duì)于找出最佳化機(jī)會(huì),、大幅加快目前的速度,具絕對(duì)關(guān)鍵性影響,。
所幸資料管理,、資料分析技巧和預(yù)測(cè)技術(shù)的演進(jìn),為半導(dǎo)體產(chǎn)業(yè)提供滿足這些需求,、具有前景的全新解決方案,。
傳統(tǒng)感測(cè)器儲(chǔ)存 無法處理巨量資料
感測(cè)器及統(tǒng)計(jì)資料所使用的分析軟體,必須使用一或多個(gè)工具,、特定時(shí)間范圍,、感測(cè)器、統(tǒng)計(jì)資料,、配方表,、批量,、晶圓組合等構(gòu)成的述詞,進(jìn)行資料庫查詢,。但目前的資料儲(chǔ)存策略,,以述詞查詢巨量資料(Big Data)集,無法獲得最佳結(jié)果,。因此,資料大規(guī)模成長(zhǎng)導(dǎo)致嚴(yán)重問題,,影響感測(cè)器資料的儲(chǔ)存,,也無法有效執(zhí)行分析查詢。
首當(dāng)其沖的問題是,,要將來自數(shù)百或甚至數(shù)千個(gè)工具的資料傳送到中央儲(chǔ)存系統(tǒng),,需有高效能的儲(chǔ)存系統(tǒng)。但以目前的儲(chǔ)存技術(shù)與價(jià)位,,要儲(chǔ)存數(shù)百TB的資料,,將大幅提高晶圓廠級(jí)設(shè)備工程解決方案(EES)的基礎(chǔ)設(shè)施成本。以400兆位元組的企業(yè)級(jí)中央儲(chǔ)存系統(tǒng)為例,,每兆位元組所需成本,,是具備類似備援功能同等級(jí)本機(jī)附加儲(chǔ)存的四倍之多。
第二個(gè)問題是,,多數(shù)感測(cè)器資料的結(jié)構(gòu)與儲(chǔ)存,,都采用傳統(tǒng)關(guān)聯(lián)式的列與欄方式。但資料容量暴增后,,這項(xiàng)方式卻無法隨著最新故障偵測(cè),、預(yù)測(cè)及產(chǎn)能分析應(yīng)用程式擴(kuò)充,達(dá)到所需效能等級(jí),。運(yùn)用傳統(tǒng)關(guān)聯(lián)式資料處理技術(shù)處理大量資料,,成本將高得驚人,嚴(yán)重影響新世代應(yīng)用的投資報(bào)酬率,。
Hadoop有效處理巨量資料
過去幾年里,,資料管理技術(shù)方面的進(jìn)展,為社交媒體,、零售及財(cái)務(wù)等須管理大量資訊的產(chǎn)業(yè)開啟可能性,,能以更有效率的方式,管理感測(cè)器及其他半導(dǎo)體制造資料,。舉例來說,,其中一個(gè)解決方案是Apache Hadoop,這是一種開放源碼軟體架構(gòu),,用于儲(chǔ)存及處理分散于硬體商品叢集上的大量資料,。其概念可兼顧大量資料儲(chǔ)存,,同時(shí)以更低的成本,加速完成資料處理,。此開放源碼軟體平臺(tái),,主要包含Hadoop分散式檔案系統(tǒng)(HDFS)和運(yùn)算架構(gòu),可于分散式檔案系統(tǒng)上平行運(yùn)算,。Hadoop分散式檔案系統(tǒng),,可從數(shù)十?dāng)U充到數(shù)千臺(tái)伺服器商品,將龐大資料集大范圍散布至本機(jī)附加儲(chǔ)存,,大幅降低儲(chǔ)存成本,。
查詢資料時(shí),運(yùn)算架構(gòu)將于大量資料節(jié)點(diǎn)上平行處理資料,,將掃描大量資料集所需處理時(shí)間縮至最短,;Hadoop平臺(tái)上還有其他輔助技術(shù),可協(xié)助有效執(zhí)行資料消化,、儲(chǔ)存,、運(yùn)用結(jié)構(gòu)化的查詢語言(SQL)查詢資料,提供安全性和類似企業(yè)資料處理需求,。
Hadoop資料儲(chǔ)存,,可解決目前制造環(huán)境的多項(xiàng)問題。首先Hadoop分散式檔案系統(tǒng),,可加入低成本的儲(chǔ)存裝置擴(kuò)充資料儲(chǔ)存,,因此成本僅為集中系統(tǒng)資料儲(chǔ)存成本的四分之一。其次,,擁有較大的資料儲(chǔ)存,,制造作業(yè)可保留及查詢的資料集,比傳統(tǒng)集中儲(chǔ)存庫時(shí)間更長(zhǎng),、范圍更大,。目前有些自動(dòng)化和設(shè)備工程系統(tǒng)公司提出要求,希望能查詢最長(zhǎng)達(dá)兩年的資料,,其中所牽涉的問題從變異控管,,轉(zhuǎn)變?yōu)楦钊氲馁Y料分析。
現(xiàn)今公司儲(chǔ)存的資料類型多元,,包括事件,、量測(cè)和影像資料等,并希望能將這些資料開放給一般的追蹤與摘要統(tǒng)計(jì)資料,。最后,,有些公司擁有多座采用自動(dòng)化和設(shè)備工程系統(tǒng)解決方案的晶圓廠,因此需在晶圓廠之間分享及傳送結(jié)果,必須找一個(gè)集中儲(chǔ)存位置以查詢和挖掘,,從多間晶圓廠診斷出結(jié)果,。
半導(dǎo)體制造可善用巨量資料
半導(dǎo)體設(shè)備商目前正開發(fā)多個(gè)應(yīng)用程式,以預(yù)測(cè)技術(shù)和近乎即時(shí)的資料分析為基礎(chǔ),,改善產(chǎn)能及工具效能,。不過,Hadoop雖然為這些應(yīng)用程式提供分散式資料儲(chǔ)存及處理架構(gòu),,但卻不足以支援應(yīng)用程式的需求,。
以下的簡(jiǎn)短說明,可概要了解Hadoop架構(gòu)在半導(dǎo)體制造環(huán)境中的效用,。為取得資料的備援及高可用性,,Hadoop將資料檔案以預(yù)先定義的區(qū)塊大小,分散到數(shù)十個(gè)資料節(jié)點(diǎn),,如圖1所示。假如資料檔案的大小為256MB,,而Hadoop區(qū)塊大小為128MB,,則資料將分割為兩個(gè)區(qū)塊,每個(gè)區(qū)塊各128MB,,區(qū)塊的備援副本將散布到Hadoop叢集上的多個(gè)節(jié)點(diǎn),。在本例中,須掃描完整檔案查詢,,可在兩個(gè)平行程序中執(zhí)行,。在資料時(shí)間范圍拉長(zhǎng),以及查詢須存取的工具數(shù)量持續(xù)成長(zhǎng)下,,使平行程度不斷成長(zhǎng),,因此大幅提升資料擷取效率。
此架構(gòu)亦能對(duì)須處理大量資料集的查詢進(jìn)行分割,,讓部分查詢可在多個(gè)節(jié)點(diǎn)上平行執(zhí)行(表1),。因此即使資料容量擴(kuò)大,也可大幅縮短查詢的處理時(shí)間,。假設(shè)查詢述詞使用特定的時(shí)間范圍和工具集,,例如用資料庫中的兩個(gè)欄,譬如時(shí)間,、工具進(jìn)行篩選,。再假設(shè),所需資料來自工具集所儲(chǔ)存的一百個(gè)感測(cè)器的其中十個(gè),。在Hadoop架構(gòu)下,,查詢引擎將掃描兩個(gè)欄中經(jīng)過壓縮和連續(xù)的值,以篩選資料并從十個(gè)感測(cè)器樣本擷取輸入。引擎將不會(huì)處理工具所儲(chǔ)存的另外90%的感測(cè)器資料,,因此可大幅減少查詢引擎所須掃描的資料量,。
Hadoop是專為大規(guī)模儲(chǔ)存及分析所設(shè)計(jì),晶圓廠目前多數(shù)的資料處理需求,,則是獲得小型資料集的最佳效能,。其常見使用個(gè)案包含傳統(tǒng)報(bào)告、模擬和配置功能,,這些功能在自動(dòng)化和設(shè)備工程系統(tǒng)內(nèi)都可找到,;添購(gòu)HDFS須與其他的自動(dòng)化和設(shè)備工程應(yīng)用程式整合。報(bào)告及模擬環(huán)境須要從短期和長(zhǎng)期的資料儲(chǔ)存位置進(jìn)行查詢,、合并資料,,再透過標(biāo)準(zhǔn)介面回報(bào),部分半導(dǎo)體公司并不希望HDFS資料使用新的使用者介面,。
半導(dǎo)體公司可透過HDFS存取更大量資料集,,并希望能執(zhí)行進(jìn)階的資料分析活動(dòng)。運(yùn)用更大型資料集的新興解決方案,,將可橫跨多個(gè)維護(hù)事件,、橫跨多個(gè)工具,執(zhí)行反應(yīng)匹配及指紋辨識(shí),,亦能將多項(xiàng)叢集分析技巧,,套用至追蹤及摘要統(tǒng)計(jì)資料,譬如比對(duì)正確與錯(cuò)誤,,以及觀察的趨勢(shì),,一般而言,這需一年以上的資料才有效,。
添購(gòu)Hadoop基礎(chǔ)設(shè)施,,加入自動(dòng)化和設(shè)備工程系統(tǒng),仍有其挑戰(zhàn),。尤其相較于關(guān)聯(lián)式資料庫系統(tǒng),,半導(dǎo)體產(chǎn)業(yè)對(duì)Hadoop基礎(chǔ)設(shè)施較不熟悉,也無同樣深入的經(jīng)驗(yàn),。為能普及運(yùn)用,,Hadoop系統(tǒng)執(zhí)行查詢及報(bào)告的效能,必須跟上關(guān)聯(lián)式系統(tǒng)的水平,。再加上其基礎(chǔ)設(shè)施有著不同于關(guān)聯(lián)式系統(tǒng)的要求,,而在半導(dǎo)體公司采用這些解決方案的同時(shí),也須提供資料安全性模式和受控制資料存取等功能,。
運(yùn)用Hadoop平臺(tái)執(zhí)行大規(guī)模分析資料處理,,有潛力可解決半導(dǎo)體產(chǎn)業(yè)資料爆炸性成長(zhǎng)的問題,,其低成本的儲(chǔ)存與資料處理,能收集大量的感測(cè)器資料,,若要能運(yùn)用這些資料,,便須開發(fā)出合適的資料格式、架構(gòu)和查詢引擎,,半導(dǎo)體制造商才能善加利用,。