|
什么是高性能計算集群什么是集群?單臺服務器的,一般分類,被視為一個計算節點,更具體地講,添加了GPU加速卡的單臺服務器,也可以被視為GPU計算節點。 那么,什么是集群?集群本質上是相互連接在一起的計算機系統的集合,以提供先進而強大的交鑰匙解決方案,以允許并行處理計算作業,例如深度學習培訓,AMBER分子動力學模擬,甚至使用一些較舊的CPU計算軟件(例如LAMMPS)。 但是,我們可以將集群分為五個部分: 1)機柜 機柜機柜是外部容器/機箱/機柜,用于容納機架式服務器,交換機,PDU和內部組織的電纜。機架的大小可以從24U升到48U(“ U”或通常稱為“ RU”是定義可裝入機柜的服務器“高度”的度量單位。)
通常建議使用42U機架,因為其占用空間與半機架相同,并允許將來擴展更多系統以添加到集群中。
管理節點管理節點(通常稱為登錄節點或頭節點)是集群的主要協調器。這是一個高度可用的系統,提供單個系統即可登錄,因此學生,研究人員可以為其項目登錄,運行與安排工作。 管理節點如何工作的,很大一部分是基于安裝的集群管理軟件,如Bright Cluster Management Software或通常簡稱為“ Bright”。Bright有助于跟蹤節點,允許調試/添加新節點,最重要的是,將所有系統捆綁在一起。 管理節點方案示例: 假設從屬節點(計算節點)在群集中已打開電源。該從屬節點將通過管理網絡內的PXE引導引導到管理節點,并且管理節點將通過MAC地址識別計算節點的各自角色。管理節點會將各自保存的啟動映像部署或映像回從屬節點;然后,下級節點將根據特定的引導映像進行引導,設置軟件和網絡,并準備好接受傳入的作業以在其上運行計算。 計算節點計算節點是“工作者”系統,從本質上說,它們是進行繁重計算的系統。 這些可以分為兩種主要類型: 1)CPU計算節點; 2)GPU計算節點。 CPU計算節點通常使用大量的CPU內核,例如英特爾至強可擴展處理器,AMD EPYC處理器,高頻(快速)計算內核或兩者的組合。 GPU計算節點可以配備GPU,FPGA或其他并行加速器,并依賴于這些企業級設備的大規模并行計算能力和內存。 許多科研小組將擁有一個由CPU和GPU計算節點組成的機架,整個集群可以靈活地適應特定的用例。這樣,集群可以變得靈活,可以為需要多種硬件的多個用戶和多個應用程序提供服務。例如:CPU加速的應用程序可以具有高性能的CPU節點來運行,而GPU加速的應用程序可以具有GPU節點。 存儲節點顧名思義,存儲是通用的共享存儲池,可以容納結果數據,圖像,代碼或科研小組特有的任何其他內容。存儲可以是簡單的NAS(網絡附加存儲)安裝,也可以是更復雜的高速,高可用性并行存儲組件,例如DDN,Panasas的解決方案,甚至是景派科技定制的并行存儲集群。
這些組件中的每一個都可以按照自己的權利進行解釋和分解。通常,景派科技建議使用單個共享存儲庫/裝載,該存儲庫甚至可以在管理節點內組合,通常是簡單實現中央共享存儲空間。 高速網集群內的網絡通常采用兩種形式: 1)管理網絡; 2)內部網絡(高速)(10/25/40/100 / 200GBE,IB,OPA等)。 管理網絡和基礎結構通常是群集管理軟件中使用的低成本和廉價的千兆網絡,以允許系統引導,配置和管理所有管理節點和計算節點的內部管理(如IPMI)。 內部聯網通常是將管理節點與計算節點互連的聯網,并且是在運行作業期間在計算節點和管理節點之間傳輸數據的主要網絡。通常,這可以是10GBase-T(對于AMBER群集至少為1GbE)到高速互連和諸如100GbE或OPA之類的結構。對于這種高速網絡,通常具有來自外部網絡的入口點(或上行鏈路),因此科研人員和學生可以遠程登錄集群以運行或安排他們的工作。 總體而言,集群是高度可定制的,并且通常是針對科研小組或機構量身定制的。 |


