
整個架構(gòu)一共可以看作是四層
第一層是一些基礎(chǔ)設(shè)施,比如模塊化的數(shù)據(jù)中心,方便快速組裝。還有像液冷,我們通常機房當(dāng)中用的都是風(fēng)冷。在HPC場景下由于服務(wù)器的功耗很大,產(chǎn)熱也多,通過液冷來散熱可以降低功耗,降低了功耗就降低了費用,從而降低了運營成本。
第二層是HPC實現(xiàn)的基礎(chǔ):計算、存儲、網(wǎng)絡(luò)。后面我們的解決方案也是圍繞這三點展開。比如計算有哪些節(jié)點,存儲有哪些類型,網(wǎng)絡(luò)需要有哪些網(wǎng)絡(luò)平面、它們之間如何互相組網(wǎng)。
第三層在底層基礎(chǔ)設(shè)備、系統(tǒng)搭好的基礎(chǔ)上,涉及到集群管理、作業(yè)調(diào)度。在操作系統(tǒng)之上,需要有消息傳遞的通信,各種運算的庫,還有編譯器等等。
第四層是偏向于行業(yè)的各種業(yè)務(wù)所需要使用的應(yīng)用,這就我們前面有提到的能源勘探、CAD仿真,基因測序、氣象預(yù)測等等。
總結(jié):那我們主要關(guān)注的是在L2層,計算網(wǎng)絡(luò)存儲怎么去設(shè)計。
HPC解決方案
首先看底層平臺
計算這一塊,像ARM處理器也就是鯤鵬920,單個處理器可以提供8通道的內(nèi)存,所以它的優(yōu)勢相比于x86在于大內(nèi)存,以及緩存一致性互聯(lián)技術(shù)。
存儲這塊,它支持Burst Buffer這種向量NAS文件系統(tǒng)。
(解釋一下Burst Buffer,例如HDD存儲容量大,但是性能差。SSD性能高,但是全用SSD部署成本很高。Burst Buffer,在計算過程當(dāng)中我們使用性能較高的硬盤(SSD)組成一個緩沖層,那么計算都在都在這種高性能緩沖層當(dāng)中進(jìn)行。當(dāng)計算得到最終結(jié)果,再將數(shù)據(jù)落盤到性能較差、容量較大的硬盤當(dāng)中(HDD)。)
網(wǎng)絡(luò)這塊,需要低時延就會用到像RoCE、IB(無限帶寬技術(shù))等這些技術(shù)
(RoCE—允許通過以太網(wǎng)使用遠(yuǎn)程直接內(nèi)存訪問(RDMA)的網(wǎng)絡(luò)協(xié)議)
同時也支持公有云、私有云、混合云的部署方案
然后第二層中間件
在這一層,華為有自己的MPI和作業(yè)調(diào)度器。在Taishan服務(wù)器上也支持其他一些開源的通用的工具,還有編譯器、數(shù)學(xué)庫這些。
第三層就是一些業(yè)務(wù)應(yīng)用,涉及到氣象預(yù)測、工業(yè)制造、生命科學(xué)這些。
總結(jié):華為HPC的解決能力主要體現(xiàn)在L1和L2當(dāng)中,L3層是和商業(yè)合作伙伴相關(guān)的。
比如在計算這邊,就可以售賣華為泰山X6000這些高密服務(wù)器或者是RH系列的服務(wù)器。
目前HPC解決方案大部分是基于x86架構(gòu)的,那么華為的泰山服務(wù)器是支持和x86混合部署的,業(yè)務(wù)一樣可以正常運行、互相兼容。
存儲這邊,華為有自己的Oceanstore系列企業(yè)級的存儲。
網(wǎng)絡(luò)這塊,華為也有自己的交換機,例如CE系列交換機、S系列交換機。
如圖所示
主要也是從三個方面去看
計算、存儲、網(wǎng)絡(luò)
計算當(dāng)中主要包括以下節(jié)點:
計算節(jié)點(瘦節(jié)點:負(fù)責(zé)一般計算)
胖節(jié)點(具有很高的CPU和內(nèi)存,例如華為的X6000高密服務(wù)器)
加速節(jié)點(例如對圖像處理的場景下,可以在服務(wù)器上插GPU卡來進(jìn)行應(yīng)用加速。)
輔助節(jié)點(如工作站)
登錄節(jié)點(如客戶端)
管理節(jié)點(集群之間需要進(jìn)行管理)
網(wǎng)絡(luò)部分,主要分為三個網(wǎng)絡(luò)平面
高速計算網(wǎng)絡(luò):計算平面,用于各個計算節(jié)點之間相互通信(就像一個小組內(nèi)的人員要互相溝通,任務(wù)完成的進(jìn)度之類的。)
存儲網(wǎng)絡(luò):存儲平面,HPC有專門的存儲系統(tǒng),那么集群當(dāng)中的節(jié)點都需要與存儲設(shè)備進(jìn)行相互通信,因此需要搭建一個存儲網(wǎng)絡(luò)。
管理網(wǎng)絡(luò):管理平面,整個集群之間資源的調(diào)度,任務(wù)的安排部署都是由管理平面來做的。
管理平面實際上分為兩個:
一個是帶內(nèi)的(負(fù)責(zé)集群間任務(wù)協(xié)調(diào)、分配、管理的平面)
另外一個是帶外的(可以通過iBMC進(jìn)行帶外管理,比如上下電等操作)
這樣將管理平面分為帶內(nèi)和帶外的,管理網(wǎng)絡(luò)系統(tǒng)和業(yè)務(wù)系統(tǒng)不共用同一個平面。當(dāng)業(yè)務(wù)系統(tǒng)出現(xiàn)故障,管理人員還可以通過帶外的管理網(wǎng)絡(luò)—也就是iBMC登錄去登錄iBMC的控制臺來管理服務(wù)器(不然就去需要跑去機房找相應(yīng)的服務(wù)器進(jìn)行操作了)。(冗余保護的作用)
存儲系統(tǒng)
支持NAS、華為Oceanstore9000以及開源的Lustre(行分布式文件系統(tǒng),通常用于大型計算機集群和超級電腦,目前大部分HPC采用的文件系統(tǒng)都是Lustre文件系統(tǒng))
總結(jié):以上就是計算、網(wǎng)絡(luò)、存儲,三層的應(yīng)用架構(gòu)。
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
版權(quán)聲明:本文為CSDN博主「TKE_chenf」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/f791473571/article/details/105001552