以客戶為中心,提供定制化或一站式的全棧解決方案,賦能千行百業(yè)
大部分計算材料和計算化學(xué)程序?qū)儆谟嬎忝芗秃驮L存密集型應(yīng)用,對處理器的浮點運算能力和內(nèi)存性能要求很高。對于典型的物理化學(xué)應(yīng)用,計算節(jié)點推薦使用雙路服務(wù)器,根據(jù)CPU型號不同,每個計算節(jié)點提供16~40處理器核心,平均每個核心可以配置2~4 GB內(nèi)存。對于ADF、VASP、Gaussian等以O(shè)penMP共享式內(nèi)存并行方式為主的并行程序,推薦采用計算核心較多和內(nèi)存較大的SMP胖節(jié)點,可以達(dá)到最佳的性能加速比。大部分物理化學(xué)軟件都是MPI并行程序,并行加速比較好,通常可以擴展到32~128進程以上,程序運行方式通常是跨節(jié)點并行運行;從并行算法分析,計算材料軟件的進程間通信比較頻繁,屬于通信密集型應(yīng)用。因此,節(jié)點間網(wǎng)絡(luò)的延遲和帶寬對程序的并行加速比起著決定性的作用。使用傳統(tǒng)的千兆以太網(wǎng)很難發(fā)揮程序的并行性能,跨節(jié)點運行時會導(dǎo)致嚴(yán)重的性能下降,成為整個計算過程的瓶頸。因此,推薦用戶使用高帶寬、低延遲的InfiniBand網(wǎng)絡(luò).
上圖是典型的計算物理化學(xué)集群系統(tǒng)配置,系統(tǒng)具有優(yōu)異的性能和良好的擴展性。計算節(jié)點選用寶德高密度服務(wù)器平臺,2U雙路多節(jié)點服務(wù)器PR2740TP,滿足一般計算軟件和計算任務(wù)的需求;計算系統(tǒng)還可以根據(jù)需要配置幾臺四路或八路SMP胖節(jié)點,專為 Gaussian等OpenMP并行程序或其它一些大內(nèi)存應(yīng)用配備 ADF、VASP,集群系統(tǒng)配置了兩臺寶德PR2510P2服務(wù)器作為管理登錄節(jié)點,兩臺登錄管理節(jié)點配置雙機熱備,對作業(yè)調(diào)度、用戶管理等系統(tǒng)服務(wù)實現(xiàn)雙保險,提高整個集群的高可用性;計算網(wǎng)絡(luò)采用高帶寬、低延遲的FDR InfiniBand網(wǎng)絡(luò),為并行程序提供無阻塞的通信高速通道;另外,配置一套或兩套千兆網(wǎng)絡(luò),用于集群管理和監(jiān)控,千兆網(wǎng)絡(luò)也可作為備用計算網(wǎng)絡(luò),提高系統(tǒng)的高可用性; 存儲系統(tǒng)采用寶德GS-5312v3 磁盤陣列,提供了海量數(shù)據(jù)存儲能力的同時,其創(chuàng)新的RAID 級別提供了更高的數(shù)據(jù)保護功能。強大的硬件設(shè)計,靈活的擴展操作和友好的管理界面,為客戶不同應(yīng)用提供簡單方便的解決方案。
本方案選擇了業(yè)界領(lǐng)先的寶德PR2740TP高密度機架服務(wù)器,采用最新的Cascade Lake處理器架構(gòu),計算網(wǎng)絡(luò)使用56Gb的FDR Infiniband,非常適合計算物理、計算化學(xué)這樣的計算密集型和通信密集 型應(yīng)用;大容量、高性能、高容錯、高可擴展性的分布式并行存儲系統(tǒng)為集群提供了強大的存儲支持。
冗余電源,熱插拔硬盤,高可靠的服務(wù)器存儲系統(tǒng)等設(shè)備和技術(shù)保證系統(tǒng)的可靠穩(wěn)定運行;雙登錄管理節(jié)點、備用計算網(wǎng)絡(luò)、存儲系統(tǒng)的高容錯技術(shù)為集群的提供了更高的可靠性。
系統(tǒng)設(shè)計為用戶預(yù)留了自由的可擴展空間,用戶可根據(jù)業(yè)務(wù)系統(tǒng)的增長,靈活地增配計算節(jié)點,擴充計算網(wǎng)絡(luò),提升計算性能;擴充存儲系統(tǒng)的容量和性能,滿足增長的數(shù)據(jù)存放和IO性能需求。
推動物理、化學(xué)等學(xué)科與計算機深度融合、催生新興學(xué)科建設(shè)與現(xiàn)代科學(xué)技術(shù)在高校的普及。