經(jīng)過20多年的發(fā)展,寶德持續(xù)而深刻地把握市場需求,積累了海量的客戶資源和豐富的服務(wù)經(jīng)驗(yàn)
某大學(xué)某學(xué)院擬建設(shè)科研人工智能共享共建平臺,面向全院提供計算資源服務(wù),軟件基于K8S架構(gòu),可實(shí)現(xiàn)計算資源集中管理、靈活分配,支持定制開發(fā),支持多用戶使用等。此次建設(shè)需把學(xué)院前期購置的一臺GPU服務(wù)器,一臺40T容量的服務(wù)器納管進(jìn)來,形成平臺系統(tǒng),達(dá)到:
1) 統(tǒng)一平臺管理,由基礎(chǔ)設(shè)施層作為整個平臺的支撐,通過云平臺對底層資源進(jìn)行靈活的調(diào)度管理,通過系統(tǒng)功能層為用戶端和管理端降低 AI 技術(shù)門檻,釋放AI 技術(shù)潛力;
2) 解決“信息孤島”,實(shí)現(xiàn)信息共享,提高信息安全水平,提升科研體驗(yàn),提高工作效率;
3) 通過新平臺建設(shè)降低成本、提升效率、節(jié)能減排,滿足學(xué)院科研資源充分利用的要求。
該方案平臺使用寶德PLStack實(shí)現(xiàn),由管理系統(tǒng)和業(yè)務(wù)系統(tǒng)組成,將兩者從底層IT資源中分離開來,以提高管理系統(tǒng)的可移植性和業(yè)務(wù)系統(tǒng)的后期擴(kuò)展性。集群拓?fù)湓O(shè)計從浮點(diǎn)計算能力強(qiáng)、GPU卡管理便捷、擴(kuò)展豐富三個原則出發(fā),將計算資源和管理資源進(jìn)行分離,同時管理網(wǎng)絡(luò)與計算網(wǎng)絡(luò)分開,避免管理對計算網(wǎng)絡(luò)資源的擠占,集群網(wǎng)絡(luò)分為:計算網(wǎng)絡(luò)、管理網(wǎng)絡(luò)兩個平面:
計算網(wǎng)絡(luò):單口100Gb IB匯聚鏈路,用于連接所有GPU計算節(jié)點(diǎn),同時提供塊設(shè)備、對象存儲等服務(wù);
管理網(wǎng)絡(luò):雙口千兆匯聚鏈路,用于管理人工智能平臺中的所有節(jié)點(diǎn),為管理員提供 Web 控制臺;
(1)計算網(wǎng)絡(luò)采用了100Gb/s的高帶寬IB網(wǎng)絡(luò),大大提高了各節(jié)點(diǎn)之間的通信能力,降低了延遲,并且通過IB交換機(jī)實(shí)現(xiàn)所有GPU計算節(jié)點(diǎn)的全互聯(lián);
(2)能夠根據(jù)用戶需求靈活對現(xiàn)有的計算資源和存儲空間進(jìn)行擴(kuò)展,彈性靈活;
(3)新平臺建設(shè)將閑置資源進(jìn)行統(tǒng)一納管并二次利用,為客戶降低成本、提高資源利用率,滿足學(xué)院科研資源充分利用的要求;