《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > EDA與制造 > 業(yè)界動態(tài) > 芯片設(shè)計上云——路徑篇

芯片設(shè)計上云——路徑篇

2021-11-12
來源:半導(dǎo)體行業(yè)觀察
關(guān)鍵詞: 芯片 路徑

  引言:

  臨淵羨魚,, 不如退而結(jié)網(wǎng)。

  —— 《淮南子 · 說林訓(xùn)》

  在前面的芯片設(shè)計上云系列文章中,,我們曾經(jīng)詳細闡述了芯片上云的動力和趨勢(《芯片上“云”的動力》),。從今年下半年起,,我們就切實地感受到這一波芯片設(shè)計上云大潮正撲面而來,國內(nèi)也漸漸出現(xiàn)了一批上云的芯片設(shè)計公司,。

  在上云初期階段,,這些公司主要分布在行業(yè)的兩端:一部分是頂端的大公司,他們上云的動力偏向于彈性算力和敏捷運維,;另一部分是尾部的初創(chuàng)小型企業(yè),,他們上云的動力則偏向于快速獲取標準完整的芯片設(shè)計環(huán)境從而靈活高效地開始進行芯片開發(fā)工作,??梢灶A(yù)見,2022年將會是國內(nèi)芯片設(shè)計上云的第一個小高潮,,“數(shù)字化轉(zhuǎn)型”已經(jīng)在芯片設(shè)計行業(yè)悄然拉開了序幕,。

  如上所述,不同類型的芯片設(shè)計公司對芯片上云的原動力決定了他們將會采用不同的EDA云計算方案,。因此采用什么云計算方案以及如何上云是很多芯片設(shè)計公司現(xiàn)在面臨的最直接問題,,我們通過這幾年的研究,建議大家參照下圖的上云路徑來進行:

  芯片設(shè)計上云的方法論和傳統(tǒng)的芯片設(shè)計平臺建設(shè)方法論類似,,都是“調(diào)研&規(guī)劃-->建設(shè)&執(zhí)行-->運營&優(yōu)化”的這樣一個可持續(xù)發(fā)展和優(yōu)化的流程,,不同之處在于“芯片設(shè)計上云”在前期的“調(diào)研&規(guī)劃”中對各種需求評估和方案制定會涉及到更多的“云計算”技術(shù)和“公有云”商務(wù)條款,因此,,芯片設(shè)計公司或者芯片設(shè)計上云服務(wù)商需要具備這些技術(shù)和商務(wù)知識,,我們此文也著重講述如何“調(diào)研&規(guī)劃”,。

  無論是行業(yè)頂端的大公司還是start-up的小型設(shè)計公司,都希望借著“芯片設(shè)計上云”的東風(fēng)在云端獲得成本優(yōu)化的高效安全設(shè)計環(huán)境,,但是正如之前《芯片設(shè)計上云-挑戰(zhàn)篇》所述,,“安全”、“效率”和“成本”這三個要素不可兼得,,在“調(diào)研&規(guī)劃”階段必須深入了解設(shè)計上云原因給出適合的EDA云計算方案,,使得上述三個因素達到最佳平衡。

  EDA上云的用戶視角

  芯片設(shè)計環(huán)境是個復(fù)雜的軟硬結(jié)合+資源管理的系統(tǒng),,其技術(shù)方案必須從各個角度出發(fā),,滿足不同用戶和管理的要求。

  EDA云計算方案決定因素

  從用戶視角來看,,設(shè)計公司內(nèi)部不同的用戶對上云的關(guān)注點有所不同:

  芯片設(shè)計團隊對這五大因素的訴求直接決定了最終的EDA云計算方案,。

  總體來說,目前主流EDA云計算方案分為:混合云方案和全云方案,,分別適用于中大型設(shè)計公司和start-up小型設(shè)計企業(yè),。

  中大型設(shè)計公司的最優(yōu)選擇 - 混合云方案

  大部分中大型設(shè)計公司都已經(jīng)建好了本地數(shù)據(jù)中心,本地資源滿足了設(shè)計項目大部分時間的算力和存儲要求,,但是當設(shè)計資源需求高峰來臨的時候(例如:后端驗證高峰時),,本地數(shù)據(jù)中心資源不足往往成為項目推進的瓶頸,公司的設(shè)計部門和ITCAD部門在這個時候大部分時間都用在資源協(xié)調(diào)和擴容上,,因此在最大化利用本地數(shù)據(jù)中心資源的前提下,,“芯片設(shè)計上云”混合云方案的彈性算力和快速交付成為解決這個痛點的最優(yōu)選擇。

  對于中大型設(shè)計公司來說,,一個完整芯片設(shè)計環(huán)境上云項目,,需要IT部門、CAD部門和研發(fā)部門密切配合,,通過調(diào)研規(guī)劃,、建設(shè)執(zhí)行、運營優(yōu)化三個階段來實現(xiàn),。所謂“謀定而后動”,,在做出芯片設(shè)計環(huán)境上云的決策前,最為核心的問題是:該如何選擇最適合上云的場景,?

  我們曾與很多設(shè)計團隊進行了廣泛的交流和深入調(diào)研,,下面就針對這個問題展開分析。

  EDA設(shè)計環(huán)境上云的場景分析

  圖片

  以一個典型的數(shù)字IC設(shè)計項目為例(14nm通信芯片設(shè)計),,我們將會從上述的上云五大因素進行展開闡述,。

  1- 高彈性

  芯片設(shè)計上云的主要動力之一就是高彈性,通過計算集群的彈性伸縮來滿足芯片開發(fā)過程中的短周期的大計算需求,并能迅速在需求滿足后釋放算力資源,,以控制成本,。

  此案例中,設(shè)計流程中各個階段的設(shè)計作業(yè)和設(shè)計數(shù)據(jù)特征如下:

  由此可見SOC設(shè)計后端工作環(huán)節(jié)(PR,、STA,、后端仿真、功耗分析,,PV等)的數(shù)據(jù)量大,,運行時間長,需要大量的仿真計算和存儲資源,。根據(jù)已有經(jīng)驗,,上述環(huán)節(jié)的資源需求占據(jù)了整體資源需求的50%-60% 。其中,,在STA和PV等環(huán)節(jié),,還需使用專用的大內(nèi)存服務(wù)器(1.5TB以上)?!靶酒O(shè)計上云”方案必須提供彈性算力技術(shù)滿足設(shè)計高峰需求,。

  關(guān)于彈性計算的詳細介紹,請參考前文:芯片設(shè)計上云 ---彈性計算篇

  2- 低敏感

  實際上我們經(jīng)常與IC設(shè)計工程師探討上云話題的時候,,他們的第一反應(yīng)往往是:“上云安全嗎,?” 安全這個問題需要從IT和用戶視角分開來看:從IT安全角度來看,無論是在技術(shù)的領(lǐng)先性和投入的資源來看,,公有云無疑是比企業(yè)自建環(huán)境更加安全的,。

  公有云平臺上運行著大量企業(yè)的系統(tǒng),每天會面臨全球數(shù)以百萬計的網(wǎng)絡(luò)攻擊,,公有云提供商雇傭大量信息安全工程師和利用各種監(jiān)控,、防病毒、防攻擊系統(tǒng)來保證公有云平臺的數(shù)據(jù)安全,;而企業(yè)的自建IT環(huán)境的安全感是因為此環(huán)境沒有受到全球網(wǎng)絡(luò)愛好者的“關(guān)注”,,不會時常面臨這種安全的“考驗”,但是一旦自建IT環(huán)境遇到這種網(wǎng)絡(luò)攻擊,,往往不堪一擊,,從目前報道的勒索病毒案例就可見一斑。

  從IC用戶的角度,,他們關(guān)心的并不是IT意義上的安全--網(wǎng)絡(luò)安全,而是設(shè)計數(shù)據(jù)的安全,,設(shè)計數(shù)據(jù)的“敏感性”決定了安全級別,,例如將RTL數(shù)據(jù)放到云上,用戶就會有心理上的不確定性,用戶需要絕對安全的“保險箱”來確保此類高敏感性的數(shù)據(jù)安全,;而Netlist數(shù)據(jù),,則相對來說敏感性低了很多,存放位置可以相對更靈活,。

  以RTL數(shù)據(jù)為主的前端數(shù)據(jù)敏感性最高,,其次為IP和工藝文件數(shù)據(jù),以Session,、過程波形,、歸檔數(shù)據(jù)和Report為主的過程數(shù)據(jù)安全性最低。

  顯然,,選擇數(shù)據(jù)敏感性較低的設(shè)計節(jié)點上云可以作為設(shè)計上云的第一步,。

  3-  低交互

  公有云平臺需要企業(yè)用戶從網(wǎng)絡(luò)遠端進行接入,從企業(yè)到公有云數(shù)據(jù)中心的網(wǎng)絡(luò)帶寬是重要的考慮因素,。在EDA計算場景中,,會有大量的實時海量小文件讀取同步發(fā)生,因此跨數(shù)據(jù)中心的實時計算數(shù)據(jù)傳遞幾乎是不可行的,。

  另外,,從目前公有云對數(shù)據(jù)傳輸?shù)氖召M策略來看,雖然數(shù)據(jù)“上傳”基本免費,,但是數(shù)據(jù)“下載”需要按照下載數(shù)據(jù)大小支付數(shù)據(jù)流量費,,因此,如何減少云上和云下數(shù)據(jù)“交互”,,也是實現(xiàn)成本優(yōu)化的最重要的手段,。

  從這點來說,“芯片設(shè)計上云”混合云方案的基本原則是要找到“零交互”的設(shè)計節(jié)點并優(yōu)先上云,。

  表1和表2中也體現(xiàn)了此例中數(shù)字IC設(shè)計流程中各個節(jié)點的數(shù)據(jù)交互類型以及數(shù)據(jù)交互量,,從而可以分析每個場景下需要通過遠程網(wǎng)絡(luò)進行數(shù)據(jù)交互的情況。一般來說,,后端流程中的STA場景是比較典型的低交互場景,,大量計算生成的過程波形文件,是不需要下載到本地的,。

  4- 易協(xié)同

  大規(guī)模芯片開發(fā)往往需要多地團隊的協(xié)同作業(yè),,分散的數(shù)據(jù)中心和集中的數(shù)據(jù)中心一直是一個值得探討的問題。相對來說,,集中的數(shù)據(jù)中心對于數(shù)據(jù)版本同步的要求要少很多,,也更容易進行平臺維護和項目進程控制,更容易實現(xiàn)項目多地協(xié)同的需求,。

  但是對于中大型設(shè)計公司來說,,一個集中數(shù)據(jù)中心容量有限,,當碰到項目資源需求高峰和利用先進制程進行產(chǎn)品升級設(shè)計時,將設(shè)計流程中的部分設(shè)計節(jié)點遷移到云上,,利用公有云資源和“芯片設(shè)計上云”混合云方案的彈性算力實現(xiàn)集中數(shù)據(jù)中心的無縫擴展依然能很好的滿足項目組協(xié)同的需求,。

  目前比較有趣的一個現(xiàn)象是半導(dǎo)體行業(yè)非常火熱,,很多公司的后端都利用外部資源來完成,,這種情況下,“芯片設(shè)計上云”混合云方案可以為這種設(shè)計公司的協(xié)作方快速提供一個可連通,、相對數(shù)據(jù)隔離,、并可控的設(shè)計環(huán)境,在保證協(xié)同效率的情況下還兼顧了數(shù)據(jù)安全,。

  5- 用戶使用習(xí)慣

  半導(dǎo)體行業(yè)是一個IT技術(shù)相對保守的行業(yè),,這個行業(yè)采用了20多年的LSF來管理計算集群的方式,早已是行業(yè)主流,,大部分可并行的EDA工具也原生集成了LSF,,對大都數(shù)有經(jīng)驗的IC工程師來說,通過LSF的方式下提交作業(yè)也是最習(xí)慣的工作方式,。行業(yè)內(nèi)絕大多數(shù)的本地計算集群,,都優(yōu)選采用的LSF進行作業(yè)調(diào)度和集群管理。

  前文中(《芯片設(shè)計上云-彈性計算篇》)我們闡述過LSF如何與公有云構(gòu)成一個自動化的彈性算力池的方法,,尤其是CAD環(huán)境的6個方面,,都與LSF有著深度的集成。

  “CAD管理內(nèi)容的其他幾個方面,,往往也都是基于這樣的底層架構(gòu)來進行定制化管理,,包括設(shè)計流程自動化、EDA工具與調(diào)度工具的集成,、設(shè)計環(huán)境標準化,、設(shè)計數(shù)據(jù)管理的標準化、License管理和調(diào)度等,?!?/p>

  保持透明的用戶習(xí)慣,對于初次上云的用戶來說,,非常重要,,否則會增加額外的成本和阻力。

  1- STA上云

  2018年起,,我們接觸到了行業(yè)內(nèi)的一個大型企業(yè)的上云案例,,針對這個案例進行了深入的調(diào)研,尤其是對STA上云場景進行了深入分析,。在整個SOC設(shè)計流程中,,STA的應(yīng)用場景,,能最好地滿足以上五個關(guān)鍵因素,。

  高彈性:STA屬于可高并發(fā)的并行作業(yè)場景,,例如,在STA中需要通過大量計算任務(wù)去校驗設(shè)計的各種結(jié)果,,根據(jù)芯片規(guī)模大小,,往往會達到上萬次的并行計算,而在本地計算環(huán)境內(nèi),,受到物理容量的限制,,是無法無限擴展瞬間算力的,因此傳統(tǒng)的項目管理模式下,,往往需要通過在有限的本地計算集群中排隊處理,。假如跑一次STA需要1小時,一萬個STA job在10臺服務(wù)器上需要排隊跑1000個小時,。而在云上,,可以充分利用彈性方法,開出更多臺機器,,在最短的時間內(nèi)并發(fā)跑完所有的job,。

  低敏感:如表2中設(shè)計流程的輸入輸出文件的分析,STA在整個IC設(shè)計流程里面來說,,數(shù)據(jù)敏感性偏低,,把STA的相關(guān)數(shù)據(jù)放在云端對于傳統(tǒng)的研發(fā)用戶來說,是更容易接受的,。

  低交互:STA是比較滿足低交互的特征的,,STA的輸入文件和輸出文件,可以單節(jié)點在云端進行獨立的計算,,而不需要大量的以及實時的線上線下數(shù)據(jù)交換,,從而使得網(wǎng)絡(luò)帶寬的壓力幾乎沒有。而且STA的計算結(jié)果是波形文件,,絕大多數(shù)情況下是不需要下載到本地的,。

  易協(xié)同:如前所述,集中的設(shè)計平臺對于多團隊的協(xié)同研發(fā)場景是最為簡便的基礎(chǔ)架構(gòu)方法,,云端的超大算力池空間為集中的設(shè)計平臺提供了更為簡便的選擇,。

  使用習(xí)慣:如前面發(fā)布的彈性算力文章,在云端的芯片設(shè)計平臺,,跟本地的設(shè)計環(huán)境可以做到完全相同架構(gòu),,對計算集群的管理統(tǒng)一通過LSF作業(yè)調(diào)度來進行。對于研發(fā)用戶來說,,在云上和本地,,是完全無感透明的用戶體驗,,通過bsub去統(tǒng)一提交作業(yè),LSF可以自行來進行Multi-Cluster的調(diào)度管理,。

  從這5大因素分析來看,,此次這個大廠選擇STA這個設(shè)計節(jié)點上云正是一個最為穩(wěn)妥安全的選擇。

  2- Start-up設(shè)計公司的最優(yōu)選擇 - 全云方案

  如本文開始所說,,大量start-up的設(shè)計公司也會選擇“芯片設(shè)計上云”,,其動力主要來自于成本和效率兩個方面。現(xiàn)在很多的start-up小型公司呈現(xiàn)出這樣一些特征:

  人員規(guī)模不大,,但是站點較多,,有些可能還有國外的設(shè)計人員

  啟動資金有限,自建機房負擔(dān)較重

  需要馬上開始芯片設(shè)計,,芯片設(shè)計平臺交付周期緊

  沒有專職的IT/CAD人員,,對設(shè)計平臺如何搭建缺乏專業(yè)知識

  公司初期辦公地點不定,可能會經(jīng)常搬家

  “芯片設(shè)計上云”全云方案就能非常好的滿足以上需求,。以下是一個初創(chuàng)公司的全云方案:

  此全云方案提供了完整的行業(yè)三層網(wǎng)絡(luò)安全架構(gòu),,并包含可擴展的彈性算力集群+存儲以及成熟的數(shù)據(jù)傳輸方案,對于終端用戶來說使用習(xí)慣和之前完全保持了一致,,用戶可以從各個地方通過internet連接進入“云端”的設(shè)計平臺進行設(shè)計工作,。

  此方案使得用戶可以在每年十幾萬基礎(chǔ)設(shè)施投資的情況下,并在不到一周的時間拿到設(shè)計環(huán)境,,這對于很多start-up設(shè)計公司來講是非常有幫助的,,此方案也將“云計算”的精髓-- “萬物皆服務(wù)”發(fā)揮得淋漓盡致。

  當然,,EDA云計算方案和上云場景的對應(yīng)關(guān)系也不是絕對的,,還是要根據(jù)企業(yè)的整體芯片項目規(guī)劃來綜合進行決策,因此大量而細致的調(diào)研工作和詳細的上云規(guī)劃是“芯片設(shè)計上云”是否能夠成功的關(guān)鍵,,對于每個芯片設(shè)計公司來說,,其上云路徑和方案都是需要量身定做的,比如:在計算節(jié)點的選型上,,方案需要根據(jù)芯片類型和作業(yè)特征來選擇云上最合適的機型,。在這里,摩爾精英IT/CAD設(shè)計平臺事業(yè)部總結(jié)了這幾年提供的“芯片設(shè)計上云”服務(wù)的經(jīng)驗并進行分享,,希望給行業(yè)上云提供一些有用的參考,。




電子技術(shù)圖片.png

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問題,,請及時通過電子郵件或電話通知我們,,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected],。