華為:包守恒算法,解決IP網絡質量檢測難題

2014年12月28日

包守恒算法,解決IP網絡質量檢測難題

 

  

 

什么叫敏捷?敏捷意味著:快、靈活。

圍繞著業界移動化、云計算、社交媒體、大數據、物聯網等新興業務的發展,未來的網絡對于實時性、移動化、可擴展性和體驗保障都有了更高的要求。如何應對新業務給網絡帶來的挑戰,如何解決現有網絡遺留的問題,都是華為敏捷網絡解決方案關注的重點。

本期將重點討論敏捷網絡如何實現IP網絡的質量監控,為管理人員帶來極致簡化的運維體驗。

1. Social Media和多業務承載對企業網絡的挑戰

Social Media實際是多業務對網絡承載的一個挑戰。

不同業務對承載質量要求不一樣,例如,語音的丟包率要小于10^(-2),一旦一百個里面丟一個包,就會造成話音質量的下降;高清視頻的丟包率要小于10^(-6),一旦100萬個包里面丟一個包,就會出現視頻馬賽克。

以前的企業網絡里面也有語音和視頻,但是量很小。隨著實時交互業務的發展,這類實時流量越來越多。還有一些重要的數據交互的業務對網絡要求也會較高。

以前只是少量語音、視頻的時候對網絡沒有什么影響,但是現在量大了以后對網絡影響就會很大,因為突發流量會很大。例如,在電視臺,會同時有很多路高清信號進到很多個演播室。每個演播室從里面切一路做實際的播放。假如說,六路信號進入一個演播室。這六路都是高清信號,而且是同時過去的,突發流量就很大,一般交換機的Buffer可能一下就溢出了。再例如,制作游戲的公司,他們高清視頻的突發流量甚至更大。Social Media帶來的最大挑戰就是多業務對網絡的沖擊。不同的業務對網絡的要求不一樣,要承載在同一張網絡上,還有突發的存在。這時候怎么樣才能很好的承載?業務質量如何才能保障?

對于企業用戶來說,視頻會議最痛苦的是出現了馬賽克,但一閃而過。如何去定界是視頻會議系統的問題還是網絡的問題,如何定位是網絡哪一段的問題還是哪個設備的問題?是設備哪個板卡的問題?這在之前是完全做不到的,所以出現體驗下降問題的很多時候,大家只能是忍受。如何從技術上承載好這些業務、解決運維的問題,是敏捷網絡考慮的創新之一。

2. 敏捷網絡創新之三:IP質量感知

IP是面向無連接的,對網絡質量是無感知的。這對網絡故障定位非常困難。一直以來,IP進入運營商網絡最痛苦的就是出問題無法定位。

但是,為什么阻止不了IP的進軍步伐呢?它是有它的道理的。首先,IP最開始是冷戰時期由美國軍方發明的,它是用于和蘇聯的核世界戰爭的。后來雖然世界大戰沒有發生,但在民用上卻發揮了巨大威力。所以,IP本身從宏觀來講,是一個非?煽康膮f議。例如,2008年的時候,美國東海岸颶風,摧毀了美國東海岸幾乎所有東西,手機、電話都無法打通。但是,在很多重要部門,唯一能夠通信的,是EMAIL。它的可靠性體現在,它的每個節點都是智能的。從這里能看出來,IP協議是一個非?煽康膮f議。

但是,正所謂成也蕭何敗也蕭何,由于IP是面向無連接的,在運營商網絡中為了讓IP能夠承載語音,發明了很多基于連接的技術。為了感知IP網絡的質量,人們又發明了很多技術,其中,傳統的方法都是通過連續發送探測包,來探測這條鏈路是否有問題。一般的做法是,從網絡的一個節點連續不斷地向另一個節點發送探測包。如果包丟了一個,就告警,如果連續丟了3個包,系統就認為這條鏈路斷了,并將業務切換到另外一條鏈路或者做其它預定的動作。

我們最近有一項新的發明,通過一個新的算法,從IP本身來解決這個質量感知的問題。

這個算法叫iPCA(internet Packet Conservation Algorithm,包守恒算法)。它的原理很簡單。舉個例子來說明,假如將A、B兩臺設備直接連起來,外加一臺測試儀C。測試有沒有丟包就是從測試儀C打一個流量,比如打10000個包,然后,通過A1、A2、B1、B2再收回來,看看打10000個包出去,如果收回來是9999,這中間肯定丟了一個包。查A1端口的接收計數器,是一萬個,A2還是一萬個,B1是九千九百九十九個,馬上就知道A1和B1中間就丟包了。但是我們為什么不能把計數器用于檢測丟包呢?目前,每個端口每個接口上都有大量的計數器,但是我們看這個計數器的時候是靜態看的。但是,對于實際的業務流量接口,比如說10G接口,1秒鐘發的包達百萬之巨,我們無法保證同時取到這兩個計數器的值。如果取出入兩個計算器的時間相差1秒,就會產生以百萬計的誤差。所以,如果不能同一時間看到各個計數器的值,就無法確定網絡有沒有丟包。但是,實際上,設備之間的時間同步是做不到絕對準確的,即使采用像1588v2協議這樣的高精度時間同步協議,也還是有誤差。

iPCA的算法解決了這個問題。它的關鍵點,是充分利用了IP包里的一個保留位。我們將這個保留位一定時間內設成0,另一定時間內設成1,通過這種手段對數據包進行染色,然后,對IP包的這個保留位進行檢測并計數。這樣一來,計數時就可以大大增加對設備時間同步誤差的容忍,即使是十幾秒甚至幾十秒也不會影響到計數的精確性,用最簡單的NTP協議就能夠實現設備間的時間同步。

iPCA帶來了很多好處,這里可以舉幾個應用場景來說明。

  • 第一個應用場景就是廣域專線的質量監控,F在大量的企業廣域網都是租的運營商專線。它實際上并不僅僅是一根光纖,而是穿越了運營商整個網絡的很多路由器、交換機設備,有可能是L3 VPN的專線或L2 VPN的專線。這樣的專線傳輸,實際上是存在大量的丟包的。但是為什么我們經常體驗不出來呢?大家都知道,TCP可以重傳,還有應用層也是可以重傳的,所以保證了業務不中斷。但是,實際上的業務質量是下降了的。對于這種情況,iPCA可以布署在專線的兩個端口,這樣,所有的丟包都會被記錄在案。
  • 第二個應用場景是顯式的鏈路質量監控,例如高清視頻會議網絡。視頻會議網絡中,由于客戶了解自身的網絡結構,在部署了iPCA的情況下,每一個丟包丟在哪里,都可以被感知和記錄。這樣一來,網絡管理員就能監控視頻會議的質量,及時發現故障,或者是潛在的故障,并及時加以修復。
  • 第三個場景是園區網絡質量監控。在園區網絡中,一般的交換機Buffer都不大,擁塞的時候難免丟包。所以,在實際的園區網絡里面經常存在一定數量的丟包。但是,由于上層(TCP或應用)有重傳機制,大多數時候少量丟包是被忽略的,只是偶爾會出現隨機性的體驗下降。這種情況下,客戶一般都選擇忍受,因為這種情況下,管理員檢查網絡往往是正常的。這種問題的本質原因,不是特定廠商設備的問題,而是普遍性的問題。

 

因此,雖然現實網絡到處都存在丟包,但究竟是哪個設備有問題,還是網絡線路有問題,從前是難以定位的,F在,把華為設備iPCA功能打開,就能發現網絡中具體的丟包地點,精確到特定的設備或者特定的線路。這樣,我們以iPCA為手段,通過監控園區網絡質量,可以幫助用戶消除潛在的問題。

iPCA,是一個顛覆性的技術。 iPCA不但能檢測鏈路,還可以檢測單板,還可以檢測芯片,可以定位網絡節點具體的丟包位置和原因。

對于網絡設備的單板而言, 把進入該單板的所有的業務口都作為入端口,通往交換網板的口就作為出端口。用iPCA來對入端口和出端口做計數器的對比,就能發現在單板內部有沒有丟包。同理,對于單板上的具體芯片,進芯片就認為是入端口,離芯片是出端口,用iPCA來對入端口和出端口做計數器的對比,可檢測單板上的具體特定芯片是否有丟包。對整臺設備可以將所有入端口累加作為輸入,所有出端口累加作為輸出,對比輸入和輸出的總數,可確定這個設備有沒有丟包。

所以,對比傳統的定位手段,iPCA不僅限于看到鏈路之間的問題,還可以精確地定位到設備,定位到單板,定位到芯片。這也是iPCA的一個巨大應用空間,在很多地方都會用到。

最后,還有一個重要的問題。由于其它廠商的設備不支持iPCA功能,是不是要全網都用華為的設備才能實現呢?答案是否定的。由于iPCA技術僅僅是利用了IP包里的保留位,而對于任何廠商的設備,IP包都是可以互通的。所以,可以只在需要檢測的地方,部署華為的敏捷網絡設備,就可以檢測設備之間的網絡質量。也就是說,只需要在重要的節點部署華為敏捷網絡設備及iPCA技術就可以了,這為網絡的改造和利舊帶來了便利?傮w來說,iPCA可以幫助IT管理人員從根本上解決IP網絡質量檢測的難題,給運維人員帶來極致簡化的管理體驗。

來源:煙臺三和網絡系統有限公司
煙臺三和網絡系統有限公司
王鋼
經營模式 :
經銷批發
所在地區 :
山東省 煙臺市 芝罘區 芝罘屯路12號科技市場115室

地址:山東煙臺科技市場115室

Tel:(86) 0535-6655824

Fax:(86)0535-6666862

http://www.bnbqz.com