【龍田百科】​Telemetry技術:實現(xiàn)遠程數據監測與網絡性能(néng)優化的關鍵
發布時(shí)間:2024-03-27

淺析Telemetry

 

 

Telemetry 是新一代從(cóng)設備上(shàng)遠程高(gāo)速采集數據的網絡監控技術,設備通過“推模式(Push Mode)”周期性地主動向采集器上(shàng)送設備信息,提供更實時(shí)、更高(gāo)速、更精确的網絡監控功能(néng)。
具體來(lái)說,Telemetry 按照 YANG 模型組織數據,利用(yòng) GPB (GoogleProtocol Buffer)格式編碼,并通過 gRPC(Google Remote Procedure Call Protocol)協議(yì)傳輸數據,使得數據獲取更高(gāo)效,智能(néng)對(duì)接更便捷。
相對(duì)傳統的“拉模式(Pull Mode)”,即采集器與設備之間是一問一答(dá)的交互,Telemetry具有如下(xià)優勢:
 
1.采用(yòng)“推模式”主動推送數據,降低(dī)設備壓力。
 
2.以亞秒級的周期推送數據,避免網絡延時(shí)造成數據不準确。
 
3.可以監控大(dà)量網絡設備,彌補傳統網絡由于采用(yòng)“拉模式”造成監控方式的不足。
 
Telemetry  vs SNMP

 

 

SNMP是小(xiǎo)型簡單網絡的主流技術,足以滿足用(yòng)戶業務目标和(hé)網絡運營需求;Telemetry作(zuò)爲後起之秀,在大(dà)型數據網絡中表現(xiàn)出許多優勢,2者有如下(xià)主要差異:
  • SNMP采用(yòng)“拉模式”,Telemetry采用(yòng)“推模式”。
如下(xià)圖所示,SNMP采用(yòng)“拉模式”采集CPU占有率數據時(shí),由于采集器與設備之間是一問一答(dá)的交互,每次下(xià)發查詢請(qǐng)求,設備都需要解析請(qǐng)求報(bào)文(wén),即n次查詢請(qǐng)求、n次解析請(qǐng)求。而Telemetry的“推模式”,它隻需要1次訂閱請(qǐng)求和(hé)1次解析請(qǐng)求,就可以按照訂閱時(shí)指定的采集周期持續推送數據給采集器。

 SNMP“拉模式”和(hé)Telemetry“推模式”

 

 

 

  • SNMP采用(yòng)MIB定義數據結構,Telemetry采用(yòng)YANG定義數據結構。
MIB是非結構化的數據模型,由各個廠(chǎng)家自(zì)行定義,也(yě)就是說如果采集器要采集其他(tā)廠(chǎng)家的設備數據,需要花(huā)很(hěn)大(dà)力氣去學習該廠(chǎng)家的MIB模型。另外(wài),MIB輸出的對(duì)象值沒有明(míng)确的屬性定義,解析複雜(zá)。YANG是結構化的數據模型,各個廠(chǎng)家使用(yòng)統一的語法,标準化。另外(wài),能(néng)夠清晰的定義業務對(duì)象、屬性和(hé)數據類型,解析簡單,無需特殊的适配工(gōng)作(zuò)。
 
Telemetry的應用(yòng)場景
 
 
過去,客戶網絡采用(yòng)SNMP技術,通常5分鐘(zhōng)上(shàng)報(bào)一次設備數據,導緻客戶網絡無法支撐實時(shí)監控。此外(wài),大(dà)規模數據上(shàng)報(bào)時(shí),設備性能(néng)存在瓶頸,會(huì)出現(xiàn)數據斷點。如下(xià)圖所示,利用(yòng)Telemetry技術,維護部門(mén)可以以秒級的采集周期獲取到(dào)設備數據,及時(shí)對(duì)異常情況進行分析,并快(kuài)速下(xià)發配置調整設備。同時(shí),調整後的狀态,維護平台能(néng)實時(shí)收到(dào),整個過程是良性運轉。
1.流量實時(shí)調優
過去,客戶網絡采用(yòng)SNMP技術,通常5分鐘(zhōng)上(shàng)報(bào)一次設備數據,導緻客戶網絡無法支撐實時(shí)監控。此外(wài),大(dà)規模數據上(shàng)報(bào)時(shí),設備性能(néng)存在瓶頸,會(huì)出現(xiàn)數據斷點。如下(xià)圖所示,利用(yòng)Telemetry技術,維護部門(mén)可以以秒級的采集周期獲取到(dào)設備數據,及時(shí)對(duì)異常情況進行分析,并快(kuài)速下(xià)發配置調整設備。同時(shí),調整後的狀态,維護平台能(néng)實時(shí)收到(dào),整個過程是良性運轉。

流量調優

 

 

2.微突發檢測

過去,客戶網絡存在微突發現(xiàn)象,超過設備轉發能(néng)力的報(bào)文(wén)将被丢棄。微突發越多,業務重傳的比例越高(gāo),網絡通信質量越差。如下(xià)圖所示,采用(yòng)Telemetry方式上(shàng)報(bào)的流量統計(jì)可以明(míng)顯看(kàn)到(dào)微突發現(xiàn)象,通過Telemetry高(gāo)精度采樣,可以檢測到(dào)這(zhè)些(xiē)微突發。

微突發檢測
 
Telemetry工(gōng)作(zuò)模式
 
Telemetry是一個閉環的自(zì)動化運維系統,也(yě)稱爲智能(néng)運維系統,由網絡設備、采集器、分析器和(hé)控制器等部件組成。其中,這(zhè)些(xiē)部件既可以使用(yòng)第三方的系統,也(yě)可以使用(yòng)華爲的系統。華爲Telemetry系統中,網絡設備對(duì)應的産品是CloudEngine交換機,采集器和(hé)分析器對(duì)應的産品是iMaster NCE-FabricInsight,控制器對(duì)應的産品是iMaster NCE-Fabric。
如下(xià)圖所示,完整的Telemetry系統分爲5個過程:
1.訂閱采集數據,訂閱設備的采集數據,以及訂閱哪些(xiē)采集數據,在這(zhè)個階段完成。
2.推送采集數據,設備依據訂閱數據方式,将采集完成的數據,上(shàng)報(bào)給采集器進行接收和(hé)存儲。
3.讀取數據,分析器讀取采集器存儲的采集數據。
4.分析數據,分析器分析讀取到(dào)的采集數據,并将分析結果發給控制器,便于控制器對(duì)網絡進行配置管理(lǐ),及時(shí)調優網絡。
5.調整網絡參數,控制器将網絡需要調整的配置下(xià)發給設備,配置下(xià)發生效後,新的采集數據會(huì)上(shàng)報(bào)到(dào)采集器,此時(shí)分析器可以分析調優後的網絡效果是否符合預期,直到(dào)調優完成後,整個業務流程形成閉環。
Telemetry系統工(gōng)作(zuò)過程
 
訂閱數據的方式
 
訂閱數據是Telemetry系統中非常重要的一個環節,有兩種訂閱機制:
1.靜态訂閱,設備作(zuò)爲客戶端,采集器作(zuò)爲服務端。由設備主動與采集器建立連接,并向采集器推送采集數據。采集哪些(xiē)數據,在設備上(shàng)通過命令行的方式配置。
2.動态訂閱,采集器作(zuò)爲客戶端,設備作(zuò)爲服務端,由采集器主動與設備建立連接,并由設備推送采集數據給采集器。采集哪些(xiē)數據,由采集器下(xià)發動态配置給設備。
如果網絡設備與采集器之間的連接斷開(kāi),靜态訂閱方式下(xià),設備會(huì)進行重新連接,再次上(shàng)送采集數據;動态訂閱方式下(xià),設備會(huì)取消動态訂閱,不再上(shàng)送采集數據。因此,靜态訂閱的特點是持續采集和(hé)推送,适合訂閱需求長期采集的數據,動态訂閱的特點是專項采集,按需推送,适合訂閱臨時(shí)需要采集的數據。