除了芯片設(shè)計(jì)產(chǎn)業(yè),,騰訊也將重點(diǎn)布局云渲染,、生命科學(xué)等多個(gè)高性能計(jì)算賽道。
隨著上云和用云的需求逐漸深化,,云廠商在積極往行業(yè)滲透,打造最佳客戶實(shí)踐,。
不久前,,騰訊云聯(lián)合速石科技為芯片設(shè)計(jì)企業(yè)燧原科技,,打造了一個(gè)面向HPC(高性能計(jì)算)場(chǎng)景的行業(yè)解決方案。該方案基于騰訊和速石科技共建的一站式芯片設(shè)計(jì)研發(fā)云平臺(tái),,快速自動(dòng)地調(diào)用騰訊云IaaS資源構(gòu)建仿真環(huán)境,,滿足了燧原科技的業(yè)務(wù)彈性需求,提升了整體的項(xiàng)目研發(fā)效率,。
“它是一個(gè)可見(jiàn)的有巨大潛力的藍(lán)?!保v訊云高性能計(jì)算行業(yè)高級(jí)經(jīng)理Kevin說(shuō),,騰訊云會(huì)在這方面加大投入,。據(jù)數(shù)智前線獲悉,除了芯片設(shè)計(jì)產(chǎn)業(yè),,騰訊也將重點(diǎn)布局云渲染,、生命科學(xué)等多個(gè)高性能計(jì)算賽道。
01
芯片設(shè)計(jì)產(chǎn)業(yè)上云正在成為趨勢(shì)
燧原科技作為國(guó)內(nèi)領(lǐng)先的AI芯片設(shè)計(jì)企業(yè),,當(dāng)初創(chuàng)造過(guò)僅用18個(gè)月就將技術(shù)門(mén)檻很高的AI訓(xùn)練芯片一次性流片成功的紀(jì)錄,。
但隨著工藝制程越來(lái)越先進(jìn),燧原也面臨著IT資源和效率無(wú)法滿足業(yè)務(wù)需要的矛盾,。
芯片的研發(fā)周期通常都比較緊張,,尤其是大芯片,中后期經(jīng)常是按天來(lái)做任務(wù)排期,。而行業(yè)內(nèi)普遍采用的是自建IDC(數(shù)據(jù)中心),,Kevin告訴數(shù)智前線,這么做主要是當(dāng)時(shí)的芯片工藝沒(méi)那么先進(jìn),,對(duì)算力的需求也沒(méi)那么大,。
而且,燧原科技IT負(fù)責(zé)人Vincent透露,,芯片項(xiàng)目在前期會(huì)做大量論證和規(guī)劃,,包括需要多少算力和存儲(chǔ)。但問(wèn)題在于,,在項(xiàng)目推進(jìn)過(guò)程中經(jīng)常會(huì)有變更,,包括制程的改進(jìn)、功能變化及性能指標(biāo)調(diào)整,。這種變更會(huì)造成大量突發(fā)的算力需求,。如果要通過(guò)采買(mǎi)服務(wù)器或者是租借服務(wù)器的方式來(lái)滿足需求,從部署,、上線測(cè)試,,需要相當(dāng)長(zhǎng)的一段時(shí)間業(yè)務(wù)團(tuán)隊(duì)才能用上這些算力,影響研發(fā)進(jìn)度。
這樣的效率顯然是無(wú)法接受的,。尤其是這幾年的疫情導(dǎo)致采買(mǎi)硬件的周期不可控,,但芯片項(xiàng)目周期是明確的,這就意味著,,芯片設(shè)計(jì)企業(yè)要面臨一個(gè)不確定的IT資產(chǎn)的風(fēng)險(xiǎn),。比如一天之內(nèi)要準(zhǔn)備一兩百臺(tái)服務(wù)器,只有上云才能夠做到,,如果是原有的IT流程,,從確認(rèn)服務(wù)器型號(hào)到采購(gòu),從安裝服務(wù)器上機(jī)柜到機(jī)房運(yùn)維,,最快要8到12周,,而且IT資金占用成本太高。
“這是我們上云的一個(gè)契機(jī)吧,?!盫incent提到。
大芯片設(shè)計(jì)周期超過(guò)12個(gè)月,,包括產(chǎn)品定義,、前端設(shè)計(jì)、IP驗(yàn)證,、SOC驗(yàn)證,、綜合、布局布線等多個(gè)階段,,不同階段對(duì)算力的需求不相同,。驗(yàn)證環(huán)節(jié)是算力使用的高峰期。所以,,燧原也選擇將部分仿真驗(yàn)證搬到云上,,“前端IP驗(yàn)證的過(guò)程基本都上云了,,后續(xù)我們肯定是希望把整個(gè)彈性的部分盡量都上云,。”燧原科技項(xiàng)目負(fù)責(zé)人Eli說(shuō),。
燧原有大量彈性作業(yè)的需求,,比如需要在同一個(gè)時(shí)間配置數(shù)百臺(tái)的服務(wù)器,對(duì)穩(wěn)定性和實(shí)時(shí)響應(yīng)的要求非常高,。目前,,騰訊云聯(lián)合速石可以做到讓客戶在1小時(shí)內(nèi)快速把仿真作業(yè)跑起來(lái),讓客戶在有限時(shí)間更頻繁地去跑仿真和驗(yàn)證任務(wù),,提高流片前的成功率,。同時(shí)基于速石對(duì)業(yè)務(wù)場(chǎng)景優(yōu)化和CAD方面的能力,幫助燧原整體Job運(yùn)行時(shí)間降低了50%,加快了整個(gè)項(xiàng)目的研發(fā)進(jìn)度,。
而且,,芯片設(shè)計(jì)行業(yè)如今已經(jīng)進(jìn)入到7nm甚至3nm時(shí)代,一顆芯片上會(huì)有幾百億級(jí)的晶體管,,它對(duì)算力的需求會(huì)大大增加,。這就意味著,芯片企業(yè)在高峰期的算力需求非常明顯,,燧原等芯片設(shè)計(jì)企業(yè)開(kāi)始向云廠商尋求彈性的算力解決方案,。
“上云是一個(gè)行業(yè)趨勢(shì)?!盫incent說(shuō),,“都在嘗試,但全部都上云還需要一些時(shí)間,?!?/p>
02
安全、效率和成本的鐵三角
芯片設(shè)計(jì)企業(yè)最核心的是各種芯片代碼和知識(shí)產(chǎn)權(quán),,相比于很多行業(yè),,這個(gè)賽道對(duì)數(shù)據(jù)安全有著更高的要求。
燧原科技在上云的態(tài)度是,,所有的數(shù)據(jù)要放在本地,,只有彈性的部分在云上,中間不做數(shù)據(jù)存儲(chǔ),。所以,,騰訊云和速石在燧原的建議和啟發(fā)下,大家探索出了“存算分離”的混合云計(jì)算架構(gòu),,并且花了五六個(gè)月時(shí)間去驗(yàn)證,。
它能夠在保障核心數(shù)據(jù)、代碼存儲(chǔ)在本地的前提下,,通過(guò)速石的調(diào)度平臺(tái)與本地計(jì)算集群打通,,使得計(jì)算任務(wù)能夠靈活選取本地或云端算力隊(duì)列。
速石科技技術(shù)總監(jiān)陳琳濤透露,,此次采用的存算分離方案本質(zhì)上是一個(gè)混合云方案,,在燧原的項(xiàng)目中,該方案面臨進(jìn)一步的技術(shù)挑戰(zhàn),,例如在整個(gè)混合云建設(shè)架構(gòu)上,,對(duì)網(wǎng)絡(luò)的時(shí)延、帶寬的吞吐率和效率的要求都非常高,,這就要求三方共同在這個(gè)項(xiàng)目里尋求最優(yōu)的架構(gòu)布置方式,。
Vincent坦言,因?yàn)樽隽舜嫠惴蛛x的架構(gòu),數(shù)據(jù)在本地,,所以企業(yè)對(duì)安全的擔(dān)憂會(huì)有降低,。
以前的存算分離,是在同一自治域內(nèi),,比如都在騰訊云上實(shí)現(xiàn),。但現(xiàn)在燧原的方案是在兩個(gè)自治域內(nèi),混合云部署,,這增加了物理距離,,而且各種接口的調(diào)度變得更加復(fù)雜,更加考驗(yàn)云廠商和合作伙伴的能力,。而速石平臺(tái)不改變用戶的使用習(xí)慣,,讓使用者無(wú)感地調(diào)用云資源,對(duì)資源的調(diào)用更加便捷,,減少上云的學(xué)習(xí)成本,。
這也是云廠商在深入行業(yè)時(shí)經(jīng)常遇到的難題。騰訊云和速石之前考慮的是直接把客戶的數(shù)據(jù)上云,,方便高效,。但溝通之后發(fā)現(xiàn),芯片客戶對(duì)數(shù)據(jù)安全的要求,,還是采用混合云存算分離的架構(gòu)最為合適,。騰訊云目前僅做算力的支撐,速石平臺(tái)提供自動(dòng)化高效的環(huán)境構(gòu)建,,燧原的知識(shí)代碼等企業(yè)核心數(shù)據(jù)都是放在線下,。不過(guò),在Kevin看來(lái),,有些不敏感的數(shù)據(jù)理論上可以上云,,通過(guò)緩存技術(shù)來(lái)提高仿真效率。
Kevin告訴數(shù)智前線,,早期初創(chuàng)企業(yè),,存量數(shù)據(jù)和存量資產(chǎn)少,對(duì)安全沒(méi)那么大顧慮,,使用全云方案是首選,,但規(guī)模大了之后,,很多企業(yè)則傾向采用混合云架構(gòu),。
而且,很多芯片設(shè)計(jì)企業(yè)以前就有很多IDC資產(chǎn),,如何把原有的資源利用起來(lái),,也是企業(yè)的訴求,可以比較好的平衡既有資產(chǎn)的投資投入,同時(shí)又兼顧云的彈性,、靈活,、快捷、便捷,?!八詮倪@個(gè)角度上來(lái)說(shuō),混合云是目前來(lái)看一個(gè)比較好的選擇,?!?/p>
像燧原并沒(méi)有將全部業(yè)務(wù)搬到云上,其中一部分依然用到了本地的算力,,比如項(xiàng)目前期運(yùn)行還是更適合本地已有的算力,。事實(shí)上,很多芯片設(shè)計(jì)企業(yè)還是以本地為主,,云上做彈性的部分,。
混合云的部署方式,對(duì)IT成本的節(jié)約也在逐漸成為共識(shí),。
燧原算過(guò)一筆賬,,如果自己采買(mǎi)服務(wù)器、自建機(jī)房,,按照三五年的周期財(cái)務(wù)進(jìn)行對(duì)比,,每個(gè)月均攤的成本會(huì)比每個(gè)月上云均攤的成本更低。但如果從節(jié)省時(shí)間和人力,、提升效率以及整體的綜合成本考慮,,上云的優(yōu)勢(shì)還是非常明顯。因?yàn)樵撇恍枰?,也不需要自己運(yùn)維,,這部分都是省下來(lái)的,而且快速部署和彈性擴(kuò)容的能力,,能讓昂貴的研發(fā)人員提高效率,,縮短研發(fā)周期。
除了采用存算分離的架構(gòu),,騰訊云聯(lián)合速石也為燧原等芯片設(shè)計(jì)客戶打造了從終端到云端的完整安全方案:在終端,,騰訊云的零信任安全的iOA方案,可以保障燧原全國(guó)各地的研發(fā)人員,,能無(wú)縫體驗(yàn)一致的仿真環(huán)境,,同時(shí)確保終端安全、信息保護(hù)以及一些漏洞的保護(hù),。
在云端,,使用了騰訊的主機(jī)安全,,保障整個(gè)計(jì)算環(huán)境是安全授信的,通過(guò)這個(gè)部分確保整個(gè)計(jì)算過(guò)程不會(huì)有入侵,、數(shù)據(jù)泄露,、勒索病毒等等的問(wèn)題。甚至是傳輸層面,,騰訊云與燧原之間有一條超大帶寬的網(wǎng)絡(luò)保障,,確保了整個(gè)傳輸?shù)耐ǖ腊踩尚拧?/p>
不難發(fā)現(xiàn),通過(guò)存算分離的架構(gòu)和混合云的部署方案,,既滿足了對(duì)彈性算力和效率的需要,,又能滿足節(jié)約成本和數(shù)據(jù)安全的需要。而這些都是企業(yè)在上云和用云過(guò)程中最在意的東西,,也是云廠商需要重視和解決的方面,。
目前,“存算分離”的混合云架構(gòu)已經(jīng)幫助燧原節(jié)省了可觀的IT投入,,任務(wù)并發(fā)量可以通過(guò)云端彈性同步提高,,同時(shí)部分仿真周期縮短30%-50%。
當(dāng)然,,Eli也提到,,現(xiàn)階段使用這一套三方共創(chuàng)的存算分離方案滿足了部分業(yè)務(wù)在彈性算力使用量上的需求去做的各種定義。而下一步我們還要進(jìn)一步優(yōu)化,,提升使用效率,,“如何更高效的利用云上機(jī)器,如何契合業(yè)務(wù)使用進(jìn)行高效優(yōu)化,,并遷移更多的業(yè)務(wù),,這個(gè)是我們接下來(lái)要做的事情?!?/p>
不難發(fā)現(xiàn),,通過(guò)存算分離的架構(gòu)和混合云的部署方案,既滿足了對(duì)彈性算力和效率的需要,,又能滿足節(jié)約成本和數(shù)據(jù)安全的需要,。
未來(lái),GPU加速芯片仿真及提供智能芯片設(shè)計(jì)優(yōu)化是行業(yè)的新方向,,騰訊云也將與國(guó)內(nèi)外EDA軟件合作共建加速仿真生態(tài),,為芯片仿真作業(yè)帶來(lái)數(shù)倍的加速并提供AI智能PPA優(yōu)化能力。同時(shí)騰訊云也在嘗試探討云端開(kāi)發(fā),,把芯片設(shè)計(jì)前流程部署云上,,基于全云構(gòu)建芯片設(shè)計(jì)流程,進(jìn)一步提升大芯片研發(fā)設(shè)計(jì)效率,。在高并發(fā)場(chǎng)景下,,騰訊云通過(guò)遨馳云原生操作系統(tǒng)的海量大規(guī)模調(diào)度能力,及豐富多元的裸金屬實(shí)例,、 GPU 實(shí)例,,在芯片的仿真驗(yàn)證和性能對(duì)比測(cè)試環(huán)節(jié),可一站式完成多代次,,多卡型的驗(yàn)證工作,,節(jié)省自建購(gòu)買(mǎi)費(fèi)用,極大提升部署效率和測(cè)試效率,。
更多信息可以來(lái)這里獲取==>>電子技術(shù)應(yīng)用-AET<<