數據中心監控系統是一個軟件和硬件結合的復雜性系統,本文將對監控管理系統的核心軟件模塊的組成、技術、應用場景等進行詳細介紹,為系統設計提供必要的參考。
監控管理系統由四大系統組成:監控系統,運行管理系統,總控中心系統和基礎服務系統組成。以下分別對四大系統中的核心模塊進行詳細介紹。
一、監控系統
監控系統由兩大子系統組成:信息采集子系統和信息處理子系統。
1、信息采集子系統
為實現模塊化設計,分布式部署,提高監控管理系統穩定性,信息采集子系統基本已經硬件化,即由一個硬件設備或者硬件模塊,代替了傳統的用純軟件方式來實現信息采集功能。
采集模塊主要功能一是提供各種形式的接口,以便接入各種不同的監控管理對象;二是實現各種采集信息的協議解析;三是將解析后的信息按統一格式上傳至處理單元。
2、信息處理子系統
信息處理子系統是監控管理系統中完成監控功能的核心子系統,要實時、靈活、準確地加工、運算、存儲大規模數據,需要設計好幾個關鍵模塊:復雜事件分析處理模塊、調節控制模塊。
(1)復雜事件分析處理模塊
復雜事件分析處理模塊(CEP,Complex Event Processing)先捕獲各種基礎事件,然后分析整理,找出更有意義的事件(復合事件)。其中事件的分析整理,找出復合事件,正是CEP的核心,也是最困難的地方。復雜事件分析處理模塊工作原理如圖1,實時數據作為事件源接入事件處理總線,CEP引擎通過指定的規則,處理這些實時數據和緩存的歷史數據,并通過事件處理總線將有意義的事件提供給事件消費方。
圖1復雜事件分析處理模塊工作原理圖
一個典型的應用實例是,在數據中心停電時,會引發大量的設備報警,通過復雜事件分析處理模塊進行分析后,則可從事件潮中分析出真正的告警原因,將所有設備報警合并成一條停電報警。
復雜事件分析處理模塊需要處理海里事件,處理壓力大。復雜事件分析處理技術不同于傳統的數據庫數據處理,由實時產生的數據流驅動事件處理邏輯,在內存中完成所有計算,性能有數量級提升,能滿足實時處理要求。復雜事件分析處理模塊的事件匹配規則是提高處理的有效性的關鍵,使用中,當監控對象的邏輯關系發生改變時,必須維護事件匹配規則,以保證處理的正確性。
(2)調節與控制模塊
調節與控制模塊工作方式有兩種:一種是手動調節與控制,一種是自動調節與控制。
手動調節與控制相對比較簡單,由人來進行判斷、決策,形成控制指令,通過監控系統下發到對應的設備,達到調節和控制的目的。此時,系統的調節和控制完全依賴個人經驗,隨機性比較強。常見的手動調節與控制方式有遠程開門,根據機房溫度,手動調節每個空調的設定溫度等。手動調節和控制不僅通過監控系統來完成,也可以通過電話、短信等方式進行操作,如可以通過電話開門、短信查詢關鍵設備狀態等。
自動調節與控制區別于手動的地方在于,將人的經驗數據內置到了監控系統中。監控系統根據這些經驗數據,形成調節與控制邏輯。當監控系統采集到的數據流入該調節與控制邏輯單元時,該單元形成預期的調節與控制指令,下發到對應的設備,從而實現了無人值守的自我調節。該技術最常見的一種應用是聯動控制,如消防火災聯動門禁開門、門禁開門聯動視頻錄像、消防火災聯動實時視頻播放等。隨著綠色數據中心的發展,該技術也逐漸應用到數據中心的節能領域,如空調群控技術就是這種思想應用的一種實例。
二、運行管理系統
1、資產管理模塊資產
管理是資產與配置管理的一部分。在實際工作中,通常把數據中心物理形態的資產包括IT資產的新增、入庫、領用、上線(進機房)、下線(維修)、減少(報廢、丟失)等的管理定義為基礎設施監控管理系統的資產管理,即對數據中心物理資產的生命周期管理,當然此時的相關資產附帶了一些與基礎設施管理相關的基本屬性信息。
2、IT資產管理范圍與分類
(1)IT資產分類
IT資產按形態主要分為兩大類,即軟件與硬件。軟件主要包括系統軟件、工具軟件、應用軟件;硬件主要包括服務器、網絡、存儲、IT辦公、場地設施相關設備。如圖2.
(2)資產管理的范圍
資產管理范圍除包括數據中心的服務器、網絡、存儲、IT辦公、場地設施相關設備,系統軟件、工具軟件、應用軟件(如圖2所列)等資產外,還包括資產的與基礎設施運維管理相關的屬性信息如下:
硬件配置信息,此屬性用于記錄設備硬件配置相關的信息,包括配置的硬盤、網卡、光纖卡等配件;
維保信息,此屬性用于記錄設備的維保信息,包括服務提供商、服務范圍、服務級別、服務考核等信息,用于服務合同管理相關的活動和功能模塊。
(3)主要功能模塊
基于資產管理所涵蓋的范圍,資產管理需要實現如下的功能:
機房資產管理模塊,用于記錄、查詢、更新運維服務相關的軟硬件資產信息,包括各類服務器、網絡設備、存儲設備、光交換設備等,借助射頻技術還可以實現對資產設備的進出機房控制、快速定位、定期盤點等功能;
庫存資產管理模塊,用于記錄和管理庫存資產、設備、耗材等方面,包括出入庫管理、查詢、盤點等活動;
介質管理模塊,用于記錄和管理服務相關的介質信息,包括光盤、磁帶等介質的標簽、存放位置、存儲內容、物理介質快速定位等;
耗材管理模塊,用于記錄和管理服務相關的耗材信息和相關的活動,如網線、光纖等,控制耗材的申領、使用、儲備等活動,還可以實現儲備預測、消耗分析等功能,以便增強對有關內容的管控;
系統管理模塊,包括用戶管理、權限控制、部門管理、安全控制等功能,用于控制資產數據庫的授權、維護、引用等活動,便利用戶的使用并控制風險;資產的入庫、領用、上線、報廢等申請、審批流程管理。
(4)基于電子標識碼的資產管理
常規的資產管理方式存在諸多的問題:
資產管理人工操作方式記錄(有的采用一維條碼,易污損,識讀困難),人工整理匯總,時間長、效率低,差錯率高;實物信息與管理信息系統信息無法同步,無法實時了解資產當前實際所處地點、狀態(閑置、正常使用、維修、報廢);
采用電子標識將資產實時監測與資產管理有效的整合在一起,從而達到實物信息與系統信息的實時同步一致。從而實現“資產全生命周期自動追蹤管理”,為企業投資決策、資產合理調配等提供準確科學的參考依據。達到資產管理中“人、地、時、物同步管理”,有效降低和控制日常管理和生產成本,節約了每年投入大量人力物力進行資產盤點和無謂調撥的成本,避免了因各種因素造成的資產流失,提高了企業管理效益。
2、容量管理模塊
容量是數據中心所能提供的能力。容量管理旨在將各類基礎架構的處理能力或系統容量進行細分和量化,根據業務需求進行調整和配置,從而在滿足主要業務需求的前提下實現資源利用合理化、負荷均衡、確保業務目標的達成。
基礎設施監控管理系統的容量管理主要針對數據中心的電力、制冷、空間等基礎設施的支持能力,即SPC容量管理。
(1)容量管理的構成
SPC容量管理主要包括如下幾部分:
性能管理(Performance Management),此活動旨在測量、監控和調整基礎架構或組件的性能以期達到最佳性能;
應用適配(Application Sizing),此活動旨在給應用、設備分配合適的資源以適應當前及未來規劃的業務需求;
容量建模(Modeling),此活動旨在識別容量管理所涉及的各因素及對應的權重等信息,并借助信息技術建立對應的容量模型;
負荷管理(Workload Management),此活動旨在監控、測量負荷的變化以便獲取實時的容量使用情況,以便指導容量規劃和擴展;
容量規劃(Capacity Planning),此活動用于創建和規劃容量計劃,以便適應業務發展的需要;
需求管理(Demand Management),此活動旨在通過調整不同系統的負荷或分流高峰時的業務負荷以期更合理地利用系統支持能力和有關資源。
(2)主要功能模塊
基于SPC容量管理所定義的范圍,SPC容量管理需要實現如下的功能模塊:
資源預分配管理,包括可用資源的搜索、預占、取消預占等功能,在進行資源搜索和預占時需要綜合考慮SPC容量模型所定義的各要素,出于管理的需要,還需要提供預占審核、設備上線、項目信息管理等功能;
報表與統計,包括報表的定制、使用狀況統計、趨勢分析、優化建議等功能,主要用于容量狀況分析及容量規劃;
系統管理功能,包括權限管理、用戶管理、歷史數據管理等,用于支撐容量管理有關功能的運行。
3、運維管理模塊
運維管理是數據中心穩定運行的保障,也是數據中心日常管理的主要內容,它支撐著數據中心的故障處理、日常檢修、定期巡檢及人員值班管理等活動。運維管理模塊是運維管理的支撐平臺,為運維管理活動的展開提供了電子化支撐平臺。下面是運維管理模塊的簡單描述和說明。
(1)運維管理的范圍
一般來說,運維管理的范圍涵蓋如下的內容:
故障響應與處理,包括各類設備故障的監測、響應、派單及工單管理等內容;
預防性維護管理,包括定期巡檢管理、移動巡檢管理、日常巡檢等內容;
統計分析,包括服務團隊的運作效率、工單處理情況、工作量等指標,運行情況的統計分析等;
知識共享和積累,包括故障處理經驗沉淀、歸檔、共享,系統基礎資料,應急預案等。
(2)主要功能模塊
根據運維管理的范圍和主要活動,需要包括如下功能模塊以匹配和支撐對應的運維活動:
事件管理(IncidentManagement),用于故障的響應、分析、派單及后續的工單管理等活動,支撐和控制服務管理中所定義的各級處理團隊的協作和故障單流轉,是運維管理所依賴的基本功能;
預防性維護管理,主要是定期巡檢和移動巡檢,用于設備的預防性維護,通過周期性的檢查和維護在設備出現異常之初就進行修復和維護,從而防止重大故障的發生;
知識庫管理(KnowledgeManagement),對于日常故障管理需要提供信息共享平臺以便保存和共享有關的處理經驗,提高協作的效率;
統計分析,用于日常工單的統計、分析,以便分析處理效率、響應能力、工作量等指標,便于運維服務的優化和考核。
(3)能耗管理模塊
隨著能源價格上升,數據中心能耗成本在運營成本的比重隨之上升,數據中心的能耗管理成為熱點話題,“低碳”理念開始為數據中心管理者所接受與重視。為了推動數據中心節能減排,工信部《工業節能“十二五”規劃》提出“到2015年,數據中心PUE值需下降8%”;發改委組織的“云計算示范工程”要求數據中心PUE降到1.5以下。這都需要做好能耗管理。
1)能效測評
數據中心能源使用效率PUE是目前國際國內比較一致認可的能效參數,定義為數據中心總能耗與IT設備能耗的比。云計算發展與政策論壇在2012年3月16日發布的《數據中心能效測評指南》中指出,能效測評除了考慮PUE,還需要考慮CLF(制冷負荷系數)、PLF(供電負荷系數)和RER(可再生能源利用率)等參數,這樣能更為精細的反映了數據中心的能耗狀況。
目前,可以參照《數據中心能效測評指南》的要求進行能效測評。
2)能耗指標的監測和計算
為了實現能耗監測與分析,監控管理系統還應包含能耗監測與分析系統。該系統通過分布在數據中心供配電系統各重要節點的采集設備監測電量、電流、電壓等參數,對采集的參數進行分析和統計,以報表的形式展示數據中心各能效評估域的能耗評估結果,供能耗優化和調整時參考。使用該系統不但可以了解數據中心能耗狀況,還可以對能耗管理的結果進行橫向、縱向比較。
上圖為數據中心典型的供配電系統示意圖,以此為基礎,描述一下進行能耗監測時的一些方案。
在正常情況下,數據中心的電能由市電提供,因此數據中心總耗電的測量點應放在市電輸入變壓器之前。當市電故障情況下,柴油發電機產生的電力作為數據中心總耗電的測量點。如果是多用途機房樓,數據中心總耗電計算中,需要減去辦公等其它耗電的測量值。
嚴格來說,IT設備能耗指標應該在各IT設備輸入電源處測量耗電量并進行加總,但鑒于IT設備數量較多,這一方法將大大增加測量工作量和成本。因此,在實際操作中,我們一般在UPS輸出或者列頭柜配電輸入處進行測量,將測量值之和作為IT設備耗電指標。即:
PUE=(PM1+PM2-PM4)/PM3
對制冷設備能耗來說,采用水冷空調的數據中心通常與所在建筑的辦公場所等共用冷水機組,為測量數據中心制冷所消耗的電能,可測量或估計數據中心和其它負載之間的熱負荷比例(根據水流量、水溫的設置等),然后根據比例將冷水機組消耗電能的一部分分配給數據中心。計算pPUE(局部PUE,見名詞解釋)的區域與其它區域有共享制冷系統時,也可采用這種方法進行間接測量和估算。
能耗指標的數值受各種因素的影響,會隨季節、節假日和每天忙閑時段的改變發生變化,為全面、準確了解數據中心的能效,需對數據中心能耗(用電量)進行了持續、長期的測量和記錄,用于按月、季、年計算PUE.
三、總控中心系統
總控中心系統中包含告警模塊和大屏控制模塊兩個重要模塊。
1、告警模塊
告警模塊在系統或者是監控對象出現告警時,能以短信、電話、郵件、聲光等形式,及時通知用戶,使故障得到快速解決。一般監控管理系統中會統一集中告警,因此告警模塊一般提供開放式的訪問接口,如SOCKET、Webservice等,以供監控管理系統中其它子模塊調用其告警服務。告警模塊的告警信息輸出方式,往往提供(包含且不僅限于)短信、電話、郵件、聲光等方式,還可以和企業的短信網關進行對接,通過統一信息平臺發布告警信息。
告警模塊作為告警有效信息的重要輸出載體,保證信息的目標可達性也至關重要。在告警模塊運行過程中,程序的崩潰、網絡故障、機器宕機等都隨時導致告警信息的丟失,貽誤故障處理的有效時機。因此,告警模塊應具備容錯機制,包括重發、斷點恢復續傳等。根據數據中心等級建設的要求,告警模塊也需要進行對應的冗余設計。同時,由于告警方式的不可靠性,如電話有可能無法接通,郵箱服務器可能發生故障等,為保證信息的送達,一般還需要在告警模塊中設計告警升級功能,如根據服務等級,對于高等級的事件,超時未處理的事件應進行各種條件的告警升級處理。升級處理,包括告警對象的升級處理,如值班人員A未撥通電話,重試失敗后升級到值班人員A的主管;還包括告警方式的升級,從總控中心現場的聲光告警,升級到短信、電話報警。復雜情況,還包括兩種升級方式的組合。
2、大屏控制模塊
總控中心是中大型數據中心運維團隊進行運行監控值守的場所,運行維護值守人員主要依托監控管理系統的總控中心大屏展示的信息來了解、獲知、分析龐大、復雜的系統和設備的運行情況。由于監控管理對象的復雜性,很多情況下,值守人員需要從不同維度同時了解、分析數據中心運行情況,這就需要從不同維度展示運行情況的多個顯示屏幕。顯然在一套大屏上從多個維度集中展示的監控、故障相關信息越豐富、越清晰明了,越有助于運維人員及時發現和快速解決問題。因此,在數據中心監控管理中心(或ECC)都配備有多個屏幕拼接組成的大屏顯示系統。
大屏幕展示模塊在數據中心的應用一般有兩種方式:
一種是采用專業的智能屏控系統,一種是采用簡單的液晶屏組合系統。
(1)智能屏控系統
智能屏控系統也稱多屏拼接處理器,是大屏顯示系統的核心功能單元。大屏幕拼接墻系統一般包含屏幕控制軟件和拼接墻處理器,來完成大屏幕的分屏、合屏等屏顯功能。
智能屏控系統支持即插即配、海量信號管理、支持DVI、VGA、HDMI、Video等信號源接入,支持多顯示墻、多屏信號共享、多屏聯動,支持自由拼接、單獨開窗拼接、信號任意拖拽,支持圖像任意縮放,跨屏,漫游,疊加,超大分辨率底圖、超高分辨率動態圖像的大屏顯示,大屏回顯錄播、數字標牌上屏,支持多組顯示方案預設,支持多用戶,操控靈活等。
智能屏控系統一般使用在中大型數據中心的總控中心。
(2)簡易多屏拼接系統
對于中小型的數據中心的監控室,以經濟實用為原則,不一定需要智能屏控系統。此時可通過多屏輸出顯卡和幾個顯示器完成一個小型的拼接墻系統。由于多屏顯卡的輸出端子有限,因此該方案一般支持的視窗是有限的。使用Windows管理液晶屏組合展示時,可以將多個液晶顯示器映射成一個虛擬大液晶顯示器,通過分屏展示模塊完成業務視圖的顯示分割、布局;也可以將多個液晶顯示器映射成獨立顯示單元,每個液晶顯示器顯示獨立的業務視圖,此時和大屏幕拼接墻系統一樣,僅要求分屏展示軟件模塊能提供對應的多個業務視圖窗口。
(3)大屏控制模塊的應用
圖4大屏顯示系統應用示意圖
大屏展示模塊根據業務需要,可以配置出多種不同應用場景的展示組合。
監控信息展示
如對于全局的監控視圖,如全國聯網的數據中心網點監控狀態監控視圖,可以設計成主畫面,使用4個顯示單元組合顯示;其他的監控管理子業務系統使用1個顯示單元顯示,設計成從畫面。這樣對整個監控管理系統的全局到局部都能進行實時監控。每個監控管理子業務系統還可以設計頁面輪詢策略,輪流顯示每個關鍵監控指標。一旦某個監控畫面發生報警,則停留在該畫面,并提示當前的報警信息。
同時,監控管理系統的主畫面與從畫面之間,從畫面和從畫面之間還可以設置聯動,如對主畫面中的某個業務子系統進行操作時,該業務子系統顯示單元便切換到該業務子系統指標監控畫面。也可以利用屏控模塊的預設功能,設定多種監控顯示模版,供使用者根據使用場景靈活調用。
告警信息展示與分析
當某個故障發生需要進行分析、會診時,可用一個屏幕3D展示該設備的物理位置信息(有必要時再用一個屏幕展示其視頻信息,實現虛擬與現實結合展示),一個屏幕用2D展示其邏輯關系信息(如拓撲關系),一個屏幕展示其故障詳細信息,一個屏幕展示相關知識庫信息或應急預案信息等。通過這種故障信息的關聯展示,有助于快速分析定位故障根源,有助于組織運維力量準確處理,提高數據中心可用性。
四、基礎服務模塊
1、數據庫模塊
數據庫模塊根據存儲的業務數據及實現技術的不同,主要分為三類數據庫模塊:實時數據庫模塊、歷史數據庫模塊和配置管理數據庫模塊。
(1)實時數據庫模塊
監控管理系統根據對數據實時性業務要求的不同,會將業務數據分離到兩類不同的數據庫中,一個是實時數據庫,一個是歷史數據庫。
實時數據庫(RTDB,Realtime Database)是數據庫系統發展的一個分支,是數據庫技術結合實時處理技術產生的。實時數據庫專用于處理帶有時間戳的數據,其特點是產生頻率快,并發量大,數據和時間有緊密關聯關系。實時數據采集產生大并發和持續的數據流,傳統數據庫并不適合流式數據處理,需要精心考慮數據存儲策略。實時數據庫在監控系統中作為高速數據訪問的緩存設施,提供實時測點訪問、實時事件訪問等服務。
實時數據庫最大的特點就是及時性。實時數據庫要保證采樣的數據能及時的更新到實時數據庫中,因此實時數據庫的訪問延遲時間不應大于采樣頻率。同時,實時數據庫也通過一些特定機制保證實時數據庫中新鮮的數據能及時被數據使用者及時獲取。
(2)歷史數據庫模塊
實時數據庫模塊為實時數據計算提供數據來源,歷史數據庫模塊則為后期的數據分析、統計、挖掘提供數據來源。
歷史數據庫是一種支持在線事務處理和數據挖掘的中間數據庫,它負責將實時數據庫中的實時數據流轉儲到中間數據庫中,供日后分析處理。歷史數據庫應具備較好的數據容錯性,便于數據備份和恢復;還應具備良好的數據訪問接口,便于在此之上進行數據分析。
由于業務的發展和多變,歷史數據庫模塊首先需要解決業務的變化的適應性。因此,歷史數據庫一般支持業務規則描述,通過預先定義的業務規則,抽取、轉換原始數據,得到期望的業務數據。業務的變化,只需要調整對應的業務規則描述即可迅速的適應新業務。
2、雙機熱備模塊
根據GB 50174-2008對機房可用性等級的要求,對應高等級的數據中心監控管理系統應匹配冗余設計。雙機熱備模塊則是監控管理系統的基礎服務系統中實現監控管理系統冗余設計的重要公共模塊。
(1)雙機熱備的分類及定義
雙機熱備使用兩臺服務器,互相備份,共同執行同一服務。當一臺服務器出現故障時,可以由另一臺服務器承擔服務任務,從而在不需要人工干預的情況下,自動保證系統能持續提供服務。雙機熱備由備用的服務器解決了在主服務器故障時服務不中斷的問題。
從工作方式上來劃分,雙機熱備有兩種:active/standby和active/active.active/standby也叫主備方式,當主機產生故障后,備機及時接管主機的服務。active/standby方式永遠只有一臺服務器處于激活工作狀態,另一臺服務處于等待非工作狀態。
active/active工作模式,主、備機都同時工作,提供相同的對外服務。客戶端訪問其中的任意一臺機器都可完成需要的業務,既可以實現簡單的負載均衡,也可以將故障的切換時間降到最低。
(2)雙機熱備的選擇
選擇雙機熱備模塊的工作方式,主要取決于運行在雙機熱備模塊之上的應用服務的工作特性。如果應用服務允許同時運行工作,則active/active是個不錯的選擇。如果應用服務在同一時刻,只允許一個實例運行工作,則只能選擇active/standby模式了。
![]() |
戶外廣告機 |
落地式廣告機 |
高清廣告機 |
分屏廣告機 |
藍牙廣告機 |
網絡廣告機 |
數字標牌播放器 |
廣告機方案 |
多媒體信息發布系統 |
觸控一體機 |
高清機頂盒 鏡面廣告機 | 多媒體廣告機 | 觸摸廣告機 | 液晶廣告機 | 車載廣告機 | 互動式廣告載體 | 樓宇廣告機 | 流媒體實時發布系統 | 廣告機外殼 | 戶外大屏幕 | 廣告機報價 數字標牌軟件 | 電子看板 | 商業顯示 | 嵌入式主板 | 觸控一體機 | 數字標牌顯示器 | 嵌入式流媒體服務器 | 立式廣告機 | 3D廣告機 | |