今年的5月10日,首屆《中國生物計算大會暨數(shù)字醫(yī)學(xué)創(chuàng)新峰會》圍繞“如何定義生物計算”這一主題展開,來自百度,、百圖生科、生命醫(yī)療大公司以及產(chǎn)業(yè)鏈上的合作伙伴都進(jìn)行了分享,。此次大會表明,生物計算作為跨界融合和與人類命運(yùn)息息相關(guān)的技術(shù)產(chǎn)業(yè),正在成為科技業(yè)的一個新熱點(diǎn),,“生物計算 = 新數(shù)據(jù) *新算法”成為大會公認(rèn)的觀點(diǎn),。
生物計算賽道下的數(shù)據(jù)中心正在面臨怎樣的挑戰(zhàn)?
圖 | 面向數(shù)據(jù)中心的靈活應(yīng)變加速器
由于數(shù)據(jù)大爆炸,,特別是大量的非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生,,應(yīng)用場景的不同,工作負(fù)載的不同,,帶來了對加速需求也各不相同,,數(shù)據(jù)中心正在經(jīng)歷一次技術(shù)轉(zhuǎn)型,,從以CPU為中心轉(zhuǎn)向定制的分布式計算,,同時多種不同的應(yīng)用、不同的工作負(fù)載及相應(yīng)的算法更新迭代很快,,遠(yuǎn)遠(yuǎn)超出芯片的發(fā)展速度,,現(xiàn)有芯片架構(gòu)無法滿足上述更新迭代的速度與需求。
什么樣的芯片架構(gòu)才能解決硬件拖后腿的現(xiàn)狀呢,?
賽靈思大中華區(qū)數(shù)據(jù)中心業(yè)務(wù)銷售總監(jiān)鐘屹表示,,“當(dāng)一種加速卡可以適配從云到端各種不同的工作負(fù)載,比如數(shù)據(jù)庫,、視頻和金融,,集成存儲和網(wǎng)絡(luò)的控制器,擁有強(qiáng)大的集成度,,同時性能和能耗比在運(yùn)營和成本上,,能給客戶帶來前所未有的價值的時候,這款產(chǎn)品就能滿足當(dāng)下市場的需求,?!?/p>
“以賽靈思為例,我們的自適應(yīng)加速平臺——Alveo卡,,就可以在三個方面很好的滿足數(shù)據(jù)中心不同應(yīng)用的要求,。第一個,得益于DSA ( Domain Specific Architecture)專用架構(gòu)的使用,,Alveo具有高性能,、高吞吐量和超低延時的特性。第二個,,自適應(yīng)能力,,可以滿足不斷變化的工作負(fù)載。第三個,,Alveo卡集成存儲和網(wǎng)絡(luò)控制器,,在加速方面,不僅僅能夠加速計算,同時還能加速存儲,、網(wǎng)絡(luò),,通過單卡滿足客戶多樣化要求?!?/p>
圖 | AI加速器橫評
“上圖展示了賽靈思自適應(yīng)加速平臺給客戶帶來的性能在不同應(yīng)用上的一個對比,,以illumina為例,這是美國的一家做基因測序的公司,,我們可以看到,,用CPU做基因測序要30個小時,而基于FPGA的解決方案則只要20分鐘,,有90倍的性能提升,。” 鐘屹補(bǔ)充道,。
Alveo適用于“生物計算”中的哪些應(yīng)用領(lǐng)域,?
根據(jù)賽靈思數(shù)據(jù)中心加速系統(tǒng)架構(gòu)師傅垚的介紹,賽靈思FPGA及自適應(yīng)計算加速平臺Alveo適合用于基因組學(xué)分析,、圖形數(shù)據(jù)庫,、醫(yī)療影像的處理分析,以及基于視頻影像監(jiān)控類型的應(yīng)用,。
傅垚強(qiáng)調(diào),,“賽靈思的Alveo加速平臺,最大的一個特點(diǎn)就是它能夠加速的計算類型理論上是不受限制的,,不像GPU對于浮點(diǎn)的高密度的矩陣或者是矢量運(yùn)算比較強(qiáng),,但其他的就會有限制,或者CPU基本上能做的事情比較多,,但是他的性能也是有限的,。”
圖 | 第二代基因測序流程
他舉例道,,“以第二代基因測序為例,,基本流程就是基因短序列測序、序列對比拼接,、預(yù)處理,、變體識別以及解碼/注釋。在序列對比拼接過程中,,主要是一些字符串模式的比對,,像GPU就很難做很高效的處理,但FPGA針對這種字符串模式的加速效果很好,。此外,,在變體識別過程中,會引用到很多統(tǒng)計算法之類的技術(shù),Alveo搭載了高性能的DSP,,可以滿足高密度的計算需求,。最后,在做生物醫(yī)學(xué)分析時,,會有很大的數(shù)據(jù)庫的處理或者是自然語言處理的一些工作量,,Alveo的加速能力也不錯?!?/p>
“應(yīng)用落地方面,,以人和未來的基因測序分析項目為例,如果是用CPU來做的話,,基本上24小時沒有辦法完成一個樣本的處理,;用GPU來做,用8張英偉達(dá)的V100加速卡,,可以完成32個樣本的處理,;但是同樣的樣本處理,,我們用Alvoe加速卡在基本標(biāo)準(zhǔn)的服務(wù)器上,,單張Alveo加速卡就可以實(shí)現(xiàn)超過46個樣本的處理?!?/p>
“生物計算”落地者有話說
圖 | 人和未來基因順序分析框圖
針對傅垚的描述,,來自人和未來的首席醫(yī)學(xué)官王益民表示,“圍繞加速這一需求我們一直在尋找一些可能的解決方案,,經(jīng)過很長時間的對比,,我們最終選定了賽靈思高性能的FPGA作為我們硬件。因為這樣的平臺有很多非?,F(xiàn)實(shí)的優(yōu)勢,,除了性能,還有其特有的軟硬件全部可重新編程的優(yōu)勢等,?;谶@個平臺我們開發(fā)了圍繞大數(shù)據(jù)基因組這樣的存儲傳輸計算,以及后續(xù)的解讀大數(shù)據(jù)基因組相關(guān)的分析方案和平臺,,從而使得我們快速推出了基因組分析平臺,,并已經(jīng)在科研和臨床等各個領(lǐng)域開始部署和應(yīng)用?!?/p>
“在加速效果方面,,經(jīng)過FPGA的加速,我們把原先大概需要30-40小時的分析時間,,壓縮到了短短的20分鐘以內(nèi),。” 王益民如是說。
除了基因測序,,來自雪湖科技的生命科學(xué)計算首席科學(xué)家盛楠表示,,“藥物研發(fā)最重要的兩點(diǎn)就是藥效和安全性,從整個藥物發(fā)現(xiàn)和新藥研發(fā)流程中,,計算占的比重還是比較大的,。特別是在中間:靶點(diǎn)發(fā)現(xiàn),化合物發(fā)現(xiàn),,以及先導(dǎo)化合物優(yōu)化方面,。”
“以常見的抗流感病毒藥物——奧司他韋為例,,從研發(fā)到上市只用了7年時間,,這款藥物就是通過計算機(jī)輔助藥物設(shè)計算出來的。首先獲取靶點(diǎn)蛋白的三維結(jié)構(gòu),,并數(shù)字建模,,然后通過計算機(jī)計算與靶點(diǎn)結(jié)構(gòu)匹配的藥物分子。類似給鎖建立數(shù)字模型,,配鑰匙,。這樣做的好處是能夠大幅提高研發(fā)成功率,但數(shù)據(jù)量增加了數(shù)百萬倍,?!?/p>
圖 | 新冠病毒表面刺突蛋白的動態(tài)結(jié)構(gòu)變化模擬耗時
“此外,分子動力學(xué)計算消耗算力也是非常巨大,,例如對新冠病毒表面一個刺突蛋白的動態(tài)結(jié)構(gòu)變化,,需要對100萬個原子之間的相互作用計算10億次。要完成這一模擬,,一臺傳統(tǒng)CPU服務(wù)器需耗時8年,。因此,往往需要大型超級計算機(jī)才能承擔(dān),。美國DEShaw研制了分子動力學(xué)專用超算ANTON2,,搭載了分子動力學(xué)專用計算架構(gòu)的ASIC,對于剛才提到的百萬原子體系,,每天能夠計算9.5微秒的運(yùn)動軌跡,。這臺機(jī)器服務(wù)于Relay醫(yī)藥,為Relay醫(yī)藥提供算力支持,,基于蛋白動態(tài)行為研發(fā)抗癌新藥,。在新冠疫情爆發(fā)之后,這臺機(jī)器快速反應(yīng),,公開了大量新冠病毒的分子動力學(xué)計算數(shù)據(jù),?!?/p>
據(jù)悉,雪湖科技基于賽靈思 Alveo 加速卡的分子動力學(xué)專用計算的性能優(yōu)異,,對于百萬原子體系100納秒的模擬,,只需要8小時就可以完成。
結(jié)語
目前人類與疾病的斗爭已經(jīng)進(jìn)入到算力的時代,,需要更強(qiáng)算力與這些病毒,,比如說新冠病毒進(jìn)行抗?fàn)帯?/p>