數字標牌故障可能發生在視頻墻系統中,如果您的系統比較關鍵或面對公眾,故障可能會導致其他問題。我們將討論常見的故障及其原因,以及檢測和容忍其中一些故障的方法,特別是以軟件為中心的視頻墻系統。
前提
讓我們假設一個視頻墻系統由顯示器(例如,可以是LCD平板、LED屏或投影機),計算機或硬件組成,驅動這些顯示器和基礎設施,以連接所有的硬件和軟件來控制一切。這些組件中的任何一個都可能發生故障,但頻率并一樣。由于視頻墻由許多顯示器組成,顯示故障的概率隨著顯示器數量的增加而增加,這就是為什么使用適合全天候操作的高質商用顯示器的重要原因。因為它們比消費類顯示器更可靠,更好支持。
當電腦或媒體播放器驅動每個顯示器時,故障的可能性也隨著計數的增長而增加。商用計算機中通常的故障是電源和移動部件,如風扇和硬盤驅動器。無風扇電腦和固態存儲有助,但往往會增加成本或降低容量或時鐘速度。
驅動許多顯示器的控制器計算機或服務器風扇,電源和硬盤驅動器也會發生故障。冗余電源和固態存儲可以起到作用,但也會大大增加成本。CPU風扇以及顯卡上的風扇通常會隨著時間的推移而發生故障,并且首先導致性能下降(由于當今基于溫度的節流內置于大部分組件),進而發生故障。
基礎設施趨于可靠
包括網絡交換機或電纜在內的基礎架構一旦穩定并正常工作就趨于可靠。許多基礎設施是固態或被動的,所以很少發生故障。一些基礎設施組件中的風扇仍然可能發生故障,但是它們往往是冗余的,因此在單次故障后不要將系統關閉。
最后,軟件問題也可能影響視頻墻系統。如果控制器軟件崩潰或發生故障,系統將無法運行。然而,高質視頻軟件通常運行數月都沒有問題。更有可能與軟件相關的問題是操作系統更新。某些操作系統在工作時間之外自動安裝更新并重新啟動。
如果視頻墻必須全天候運行,那就都是工作時間!如果驅動單個顯示器的計算機重新啟動,它看起來很糟,但不是災難性的。但是,如果控制器計算機或驅動多個顯示器的服務器重新啟動,則可能嚴重妨礙操作。
哪些故障是至關重要的?
現在我們知道在視頻墻系統的許多不同組件中可能會發生故障,哪些是最重要的,如何檢測和保護它們?
如果單個顯示器出現故障或者單個顯示器的計算機出現故障,如前所述,這是一個不便之處,但可能不會消除整個系統的效用和有效性。只要故障不影響多于一個的監視器,該問題就包含在內,并且可以通過修復或更換單個組件來恢復。
更換顯示器,特別是在全面服務的安裝上,是一個快速的任務,因為您正在更換驅動單個顯示器的計算機。因此,為了防止或者從這些故障中恢復,需要付出很大的努力可能不符合成本效益。
如果連接基礎架構出現故障,可能會使整個視頻墻系統崩潰。另一方面,如前所述,基礎設施設備往往是可靠的。使大多數基礎架構冗余也是非常有挑戰性的。這樣的基礎設施是可靠的并且復制是昂貴的,所以可能不值得花費大量精力來使其更可靠。
如果控制器計算機或多顯示服務器由于軟件或硬件故障而失效,則可能會影響部分或全部視頻墻系統。如果一個組件是一個單點故障并且容易出現故障,這顯然值得解決。因此,某種故障恢復或冗余以減少這種故障的影響是有道理的。然而,是否具有成本效益取決于方法和實施。
另一類故障涉及視頻墻系統的用戶和客戶。
某些故障可能是由用戶或訪客踢到或意外拉動電源或網絡插頭,或將咖啡灑在計算機上,甚至在跌倒或其他事故期間損壞顯示器引起的。如果這些意外的故障發生在關鍵的設備上,它們可能會顯著影響視頻墻的操作。
有時客戶關心潛在的故障;雖然不太可能出現,但是還是應該應對這種情況,讓客戶安心。例如,有客戶關心我們的許可證密鑰方法的故障,所以我們必須設計我們的容錯方法來解決這個問題,即使故障是不太可能的。
為了減少最關鍵或最有可能發生的故障(甚至是最不相關的故障)的影響,可以在系統中設計容錯。故障容錯需要故障檢測和故障恢復,這兩者本身都不足夠。我們討論的其余部分將涉及基于軟件的網絡視頻墻系統,也稱為分布式可視化系統。盡管許多原理適用于基于多顯示服務器的視頻墻系統,但一些故障檢測和測試技術必須是不同的。
我們必須清楚:容錯并不是說可以避免故障。如其名稱所述,故障是可以容忍的,目標是使容錯盡可能是無縫且無關痛癢的。容錯的基本思想是,如果關鍵組件(例如控制器計算機)出于任何原因發生故障或消失,則第二個控制器將繼續使用盡可能少的明顯過渡效果來操作墻壁(后續將細說)。
在分布式可視化系統中,顯示器由網絡計算機驅動,每個計算機都可能會出現故障,而不會破壞系統的其余部分。視頻墻顯然有一個空白屏幕,但所有其他屏幕都將繼續工作并正常運行。因此,容錯的焦點必須是控制器計算機,它協調正在顯示的內容,但不執行實際驅動顯示器的工作。
分布式計算機系統的基本設計原則是使得許多計算機完成工作,而不是由其完成;因此,隨著系統的增長,隨著更多的計算機的加入,它變得越來越強大。同樣,在分布式可視化系統中,顯示計算機執行所有工作:更多的顯示計算機衍生出更強大的系統。
我們專注于控制器計算機的故障恢復,因為如果控制器計算機發生某些事情,則可能會導致系統死機。因為控制器計算機是商品PC,它可能會遭受硬件故障(通常,風扇發生故障或驅動器死機),或者如早先所述,粗心大意的訪客可能踢到電源線或敲擊電腦,如果它不是在機架上,或者最有可能的是,操作系統更新可能導致系統在應用更新時重新啟動幾分鐘。
解決方案
控制器故障的最明顯的解決方案是擁有第二個控制器。如前所述,驅動顯示器的計算機正在進行繪制視頻墻的工作,因此,協調繪圖的控制器軟件只能在普通PC上運行;因此,第二控制器PC的附加硬件費用是微不足道的。
添加第二個控制器可以讓第二個用戶主動控制系統,一種稱為在分布式計算環的“主動-主動”的方法(與主動備用方法相反)中。因此,主動-主動系統具有并行操作并且可以同時控制視頻墻的冗余主動控制器。
不適合視頻墻的其他容錯技術包括三重模塊冗余(TMR)和投影系統,如航天飛機中使用的那些。它們解決了不同于視頻墻容錯解決方案的問題:它們處理稍稍翻轉的宇宙射線,導致計算出錯,從而破壞車輛的軌跡。我們的前提是,只要硬件正在工作,它就會生成正確的結果,但停止工作時,我們需要檢測并恢復。
檢測故障
檢測驅動視頻墻的網絡計算機系統中的故障是一個挑戰,因為計算機網絡在繁忙時不可靠。例如,當緩沖區填充時,切換丟棄數據包,因此我們可以依賴于單個丟失數據包。網絡堆棧(在Windows中發送和接收網絡流量并實現通信協議的軟件)通常容忍網絡中斷;因此,它們長時間不報告連接的故障。
我們必須開發技術來快速檢測出故障,但不會被錯誤的檢測所困擾。這取決于多方面的做法,具有多種監控通道和其他低級技術,以檢測另一個控制器已經消失,并在需要時接管系統。在這樣做的時候,我們必須定義主要的和次要控制器,雖然區分對于用戶來說不是明顯的。主次的確定在系統啟動時選擇程序的過程,因此控制器PC要么是主控制器,要么次級的,并且兩者都不比其他控制器更強大。
測試
測試容錯是一個重大的挑戰,因為我們想確保我們測試的是可能影響客戶端和他們關心的故障,而不僅僅是使故障容錯機制看起來很好的任意故障。一些測試條件容易實現和復制:例如,拉取USB許可證密鑰可以一遍又一遍地執行相同的結果。
退出控制器軟件或重新啟動計算機類似可靠,易于檢測和恢復。這些產生了很好的明確的故障模式,因為所有的網絡連接都被關閉,因此故障診斷是快速和容易的,確定實際發生的更具挑戰性,但至少控制器知道另一個不再是連接的。
從電腦上拉電源插頭或使其屏幕藍屏(我們編寫一個測試程序來強制)是更具挑戰性的測試。這些操作有些危險,因為它們可能會損壞PC操作系統或驅動器內容,因此執行它們通?赡軙䦟е潞臅r的驅動成像。它們還導致難以檢測的故障:計算機停止通信,但連接保持開放好幾秒鐘。這種故障對許多基于定時器的故障檢測算法是很好的測試。
網絡故障測試
我們執行的另一種故障測試是網絡故障。網絡交換機是非?煽康模晕覀儾恍枰獪y試這種故障,但網絡線纜拉設和間歇連接可能發生,所以我們測試這些。網絡拉線很像拉電源線,因為計算機停止通信,但網絡連接不會停機一段時間。
間歇性網絡連接或電纜拉動,然后快速插入它們是更加險峻的問題,很難診斷。一個非常短的電纜拔插/重新插入是大多數網絡可以忍受的東西,沒有中斷,所以我們需要確保我們的方法可以容忍它,幾乎不會發生中斷。
拔插和重新插入之間的間隔更長(半秒到幾秒)是檢測和恢復最棘手的故障之一,因為網絡顯然被中斷,但并不是所有連接都被破壞。在這種情況下,我們選擇故障切換到沒有網絡中斷的其他控制器。
這需要大量協調,因為具有網絡故障的控制器需要檢測到它被中斷,當它被重新連接時,它不會嘗試斷言其舊狀態,而是與其他控制器協商。沒有故障的控制器必須確定它不再連接到另一個控制器,但它仍然連接到系統的其余部分。如果它已經是主控制器,那么它將成為主要的控制器,并接管系統的管理。
行為
那么按照所描述的容錯系統,如果控制器發生故障,客戶可以期待什么樣的行為呢?如果故障的控制器是次級,那么不會有任何效果,除了故障的控制器不能再控制視頻墻。如果是主要的,因為舊的次級控制器成為主要的并且接管系統,則將會有一個短暫的轉換期。
在顯示器上,包括大部分流媒體源內容在內的大部分內容將保持可見,并且不間斷地繼續更新。例外是來自LAN外部的面向連接的內容,即通過安全TCP連接進入系統的源。它們可能直接連接到故障的控制器,需要幾秒鐘的時間才能切換到新的主控制器,所以他們將在4-5秒內恢復更新。
這意味著NOC或其他控制室中的關鍵視頻墻將保持運行狀態,即使其中一個系統控制器發生故障,也只會受到輕微的中斷。在典型的數字標牌場景中,一個系統控制器的故障不會影響顯示的內容,所以沒有中斷。
What Do We Not Tolerate?我們不能容忍什么?
什么樣的故障不能容忍?前面提到的網絡交換機故障是最大的例子,但交換機非?煽浚覀兊墓こ處熞呀泧L試了將故障切換到第二個交換機的方法,盡管它們需要特定的硬件和配置。我們顯然無法再做更多關于顯示器的故障測試了。
我們也不會對單個計算機驅動顯示的故障做任何事情,因為與顯示器故障一樣,這并不影響整個系統的功能,它只影響一個顯示器。由于顯示電腦通常是商用電腦,因此可以快速,容易地進行維修或更換。讓新顯示電腦上線只需幾分鐘。
我們調查和設計了我們的容錯方法,以從最常見的故障中恢復,這些故障可能使虛擬機系統脫機,包括常見的硬件故障,錯誤和事故。在關鍵時刻可以保持視頻墻的正常運行,但不要求復制所有的設備,也不需要巨大的額外成本。通過快速的故障檢測和快速恢復增加容錯功能,可讓視頻墻永和更加安心。
![]() |
戶外廣告機 |
落地式廣告機 |
高清廣告機 |
分屏廣告機 |
藍牙廣告機 |
網絡廣告機 |
數字標牌播放器 |
廣告機方案 |
多媒體信息發布系統 |
觸控一體機 |
高清機頂盒 鏡面廣告機 | 多媒體廣告機 | 觸摸廣告機 | 液晶廣告機 | 車載廣告機 | 互動式廣告載體 | 樓宇廣告機 | 流媒體實時發布系統 | 廣告機外殼 | 戶外大屏幕 | 廣告機報價 數字標牌軟件 | 電子看板 | 商業顯示 | 嵌入式主板 | 觸控一體機 | 數字標牌顯示器 | 嵌入式流媒體服務器 | 立式廣告機 | 3D廣告機 | |