重要信息
5G将开启工业互联网变革的新篇章,推动5G融合应用发展已是行业共识。GTI s最新的《5G智能化网络白皮书》强调,网络智能是高效、高质量建设、部署和运营5G网络不可或缺的能力。如何为用户提供更高质量、更安全的通信服务,已经成为运营商乃至全社会信息化发展的重要课题。
页,面,张,版
一个
5G核心网运维的新挑战
5G核心网是电信运营商的重要组成部分5G建设。随着新技术的采用,在实现网络部署、网络功能和新业务发展的同时,监控保障也面临着新的挑战。在4G核心网(EPC)中,网元由专有设备承载,硬件属性强。在5G核心网环境下,采用SBA (Service Based Architecture,基于服务的架构),融合云原生、微服务等设计思想,以软件化、模块化、面向服务的方式构建核心网。新核心网的运维保障面临以下挑战:
网络功能的解耦使得监控对象数量激增。
根据3GPP的定义,5G核心网的各个网络功能(NF)在功能层面上是解耦的,拆分出几个独立的网络功能服务(NFS)。这些网络功能独立运行,提供标准化的服务接口,通过相互调用和访问实现网络功能。在5G核心网方案中,虚拟化和云原生技术的融合,使得通用服务器取代了专有硬件设备。与此同时,虚拟网元、虚拟机和POD容器的数量迅速增加,每个工作负载同时提供多个IPv4、IPv6工作平面。
与4G EPC相比,由于多方面的叠加,5G核心网SBA架构中的虚拟化NFS实例数量增加了两个数量级以上,被监控对象的庞大数量是5G核心网支撑侧的第一个挑战。
服务自动化增加了网络跟踪的难度。
通过NRF (NF Repository Function),可以自动管理5G核心网的各类网络功能服务,实现服务自动发现、注册、更新、状态检测等。避免了业务接入时大量的手动配置工作;集中控制平面可以将大量跨区域的信令交互变成数据中心内部流量,优化信令处理时延;根据业务应用的变化,可以根据需要快速扩展和收缩网络功能和服务,提高网络的业务响应速度。自动化管理提高了生产端的管理效率,同时也给核心网支撑端增加了动态的、难以跟踪的新挑战。
路径优化和交互式解耦增加了监控的复杂性。
4G核心网网元之间的通信遵循请求方和响应方的点对点模式,这是一种传统的互耦模式。在5G核心网面向服务的架构下,各网络功能服务可以按需通信。核心网架构下的网络功能和服务之间的通信机制进一步解耦为生产者和消费者模式,具有灵活性、解耦性和开放性的优点。是5G时代快速满足垂直行业需求的重要基础能力。在实际应用过程中,所有的网络功能都避免了不必要的网络中转,而是服务之间的调用依赖、访问跟踪、性能分析、故障定位等。也成为运维支撑方的新挑战。
页,面,张,版
2
深度5G核心网网络功能业务监控方案实践
DeepFlow是一款面向5G核心网的软件产品,基于服务NFS之间通信接入流量的采集和分析,保障核心网的稳定运行。在总体方案中,按照处理逻辑可以分为三个部分:流量采集、数据分发传输、诊断分析。通过流量采集和预处理的抽象层,流量采集的北向管理接口
通常在5G核心网环境下,主要涉及KVM虚拟机和container POD的网络流量采集。深度5G核心网网络功能业务监控方案支持IPv4、IPv6协议环境,与HTTP v2协议紧密结合,实现业务间相关性和依赖性的监控。基于运营商的实际5GC运行环境,本文简化了复杂度,在Free5GC环境的基础上进行介绍。
什么是free5GC?free5GC是一个面向第五代(5G)移动核心网络的开源项目。该项目的最终目标是实现3GPP Release 15 (R15)及更高版本中定义的5G核心网络(5GC)。www.free5gc.org
Free5GC是5G核心网开源软件项目。其整体架构基于3GPP标准,遵循SBA框架,通过虚拟化实现网络功能,可以运行5G核心网的标准服务,并可以模拟相应的工作流程。在实际的5G环境下,大部分厂商都采用了容器技术来承载网络功能业务。本文利用虚拟机运行容器创建Kubernetes集群,搭建5G核心网验证环境,启用各种网络功能。通过云杉网络的DeepFlow平台,实现了对各种网络服务的监控保障。实际部署的组件包括控制器、采集器和数据节点。
图:5G核心网监控方案
从大到小跟踪网络服务
在5G核心网的监控实践中,从大到小,逐步有序展示业务运行状态和关系。一般按照工作流程分为三个区域。较大的区域按数据中心所属的区域或资源池划分,其次是网络功能或服务类型,如AMF、UDM、SMF等。最后是it单位,如集装箱POD、主机、IP等。DeepFlow平台分为由大到小的三种操作类型,为核心网涉及的复杂网络提供完整的、分步的监控和跟踪。下图展示了各种网络功能和服务的操作和呼叫关系的全景图,并在基于服务的界面(SBI)中自动绘制和呈现网络功能之间的呼叫通信和性能指标。
图:功能服务全景
在实际操作中,注意服务之间的关键指标,包括网络层(吞吐量、负载)、传输层(并发连接、TCP连接延迟、TCP系统延迟、TCP重传、连接失败)和应用层(HTTP请求、HTTP延迟、HTTP异常)。画出访问调用关系全景图后,在知识图谱功能的支持下,可以快速列出对应的知识维度。
异常边界范围的分钟级定位
5G核心网NFS之间存在大量复杂的业务呼叫,因此具备有效的呼叫性能跟踪能力尤为重要。
图:服务间访问示例
如上图所示,一个简单的逻辑调用,AMF的NFS(接入和移动性管理功能)调用UDM的NFS(统一数据管理)获取用户信息。这个过程不像传统环境中那样直观简单。在5G现有网络环境中,一般涉及主机、虚拟机和容器的网络虚拟化。有必要通过全栈分段来整理接入呼叫,以应对新环境下运维故障排查的挑战。从全栈的角度,通过展开上述调用,可以分析出NFS发起调用所经过的POD接口、虚拟机接口、主机接口甚至网关等链路。
图:服务调用全栈跟踪示意图
全栈跟踪针对云端服务间的调用访问,逐步扩展虚拟化实现的逻辑通信,清晰便捷地展示各网段的网络状态和性能,结合知识图谱和丰富的索引数据,快速定位性能异常的问题范围边界。以上面提到的接入为例。如果检查到呼叫延迟故障,则NFS呼叫业务双端后,启动全栈跟踪,直接定位延迟所在的接口。如全栈跟踪示例图所示,可以清楚地看出,AMF服务实例到UDM服务实例的访问延迟瓶颈在UDM功能端,重点是虚拟机的虚拟网络接口
如果没有DeepFlow全栈跟踪工具,检查服务访问调用的性能将是一个混乱、复杂和冗长的过程。同时要求一线运维人员拥有相对较多的技术栈和较强的综合能力,很可能会耽误宝贵的运维窗口时间。
页,面,张,版
三
摘要
上面的Free5GC例子运行在实验室环境下,模拟相应的测试用例,实际生产场景比实验室更加复杂庞大,势必对运维支持提出更高的要求。经过实际环境测试验证,DeepFlow平台确实可以填补5G核心网的监控保障空白。
帮助5G核心网在基于业务的架构中统一收集业务间的网络流量,实现对接入呼叫的全面性能监控,并提供容器化后的全栈路径跟踪,填补5G核心网业务监控的空白,应对云的原生特性,与5G业务紧密结合,解决5G核心网生产中遇到的监控、运维、保障等问题。
标签:网络功能核心网