國內(nèi)信息產(chǎn)業(yè)的高速發(fā)展,極大加速了服務(wù)器的應(yīng)用規(guī)模,機群也已經(jīng)走下象牙塔,被越來越多的行業(yè)所接受。隨著機群系統(tǒng)的發(fā)展,機群的規(guī)模越來越大。當機群的節(jié)點數(shù)達到幾百個以上時,由于機群系統(tǒng)結(jié)構(gòu)松散、結(jié)點獨立性強、網(wǎng)絡(luò)連接復(fù)雜,造成機群系統(tǒng)管理不便,難以使用。我們有時候聽說企業(yè)的高性能計算機群中個別服務(wù)器死機后2-3個月才被發(fā)現(xiàn),可能我們很多人會把這當作笑話,但這實際應(yīng)用中卻屢見不鮮。
圖
如果沒有一套很好的系統(tǒng)對機群進行監(jiān)控,有可能會極大降低高性能計算機群的使用效率,浪費大量資源,這在環(huán)保被高度重視的今天是不可接受的。如何對集群系統(tǒng)的節(jié)點進行實施有效的監(jiān)控,及時發(fā)現(xiàn)問題,確保系統(tǒng)時刻處于高效狀態(tài)是每個服務(wù)器廠商在部署集群時首先要考慮的問題。
早在2006年,曙光開始著手解決機群監(jiān)控管理的難題,并于當年推出了曙光的機群監(jiān)控系統(tǒng)DCMM,幫助曙光用戶解決大規(guī)模機群管理的難題。DCMM的第2代產(chǎn)品已經(jīng)在曙光4000A中得到了有效驗證。據(jù)曙光相關(guān)負責(zé)人介紹,隨曙光5000A的發(fā)布,曙光即將發(fā)布其DCMM的第3代產(chǎn)品。
曙光DCMM通過軟/硬件結(jié)合的方式監(jiān)控整個集群服務(wù)器的軟硬件運行環(huán)境與狀態(tài),如各節(jié)點網(wǎng)絡(luò)流量、CPU和內(nèi)存的使用率,各節(jié)點的主板溫度與CPU溫度,機箱風(fēng)扇轉(zhuǎn)速與CPU風(fēng)扇轉(zhuǎn)速,主板電壓與CPU電壓等等,使系統(tǒng)管理員對全體節(jié)點的情況一目了然。同時DCMM還可以針對部分交換機和曙光磁盤陣列等其他設(shè)備的實時信息監(jiān)控,進行全面監(jiān)控,一網(wǎng)打盡。其安裝于機柜前方的顯示屏可以所有狀態(tài)直觀的顯示在機群的觸摸屏上,幫助用戶對機群進行管理。
圖
曙光DCMM同時提供報警功能,當出現(xiàn)故障點時(如溫度異常、風(fēng)扇停止轉(zhuǎn)動等),或超過預(yù)值時,通過聲響和界面列表、彈出窗口、郵件報警等方式向系統(tǒng)管理員報警,及時提醒系統(tǒng)管理員進行處理,避免或減少系統(tǒng)故障和由其引起的用戶損失。系統(tǒng)規(guī)模越大,系統(tǒng)管理和監(jiān)控的效率越高。
曙光DCMM可以對任意節(jié)點進行開機,重啟(冷啟動),自動順序開機等日常工作,使系統(tǒng)管理員可以在控制室監(jiān)視整個機群系統(tǒng)的運行情況并可以對最大1024節(jié)點中的任意一臺節(jié)點進行類似本地的操作,而不需要進入機房。曙光DCMM還支持遠程訪問,管理員可以通過Modem遠程撥號對機群系統(tǒng)進行監(jiān)控和管理。
曙光DCMM由于使用數(shù)據(jù)庫存儲監(jiān)控的信息,能夠提供歷史數(shù)據(jù)供技術(shù)人員分析和查詢,便于管理員調(diào)整設(shè)備檢修時間,錯過系統(tǒng)使用的高峰期。
曙光DCMM系統(tǒng)的節(jié)點端軟件有Window操作系統(tǒng)和Linux操作系統(tǒng)兩種不同版本,為客戶考慮周全。
信息是一種重要的商業(yè)資產(chǎn)已經(jīng)成為廣大企業(yè)的共識,如何保證信息的安全,確保系統(tǒng)的穩(wěn)定是每個企業(yè)在信息化進程中首要考慮的問題,曙光DCMM監(jiān)控系統(tǒng)的將為廣大企業(yè)打開一扇希望之窗!