现代数据中心可以运行数千种服务和应用程序。当出现问题时,作为网络管理员,您默认是有责任的。您必须每天证明自己的清白,因为将问题根源归咎于网络是很容易的事。

将应用程序性能问题与网络关联起来是比较困难的工作。您可以从使用简单的 ping 或 traceroute 检查基本连接开始,检查基于 SNMP 的监视工具、嗅探器,甚至读取设备计数器以查找丢包。与此同时,用户遭受应用程序速度慢、性能差甚至不可用的困扰。

可惜的是,所有这些经典的网络故障排除方法都很耗时,不能保证成功,因为有时使用它们几乎不可能查明问题。

NetQ 出手相救

为了方便网络故障排除, NVIDIA 开发了 NetQ —— 一个可扩展的现代网络运维工具集,可提供网络实时可视化的能力。

NetQ 团队最近推出了独特的流分析工具,以进一步增强可视化能力。流分析允许网络管理员立即将服务流量流与网络中的路径关联起来,从而大大减少了平均无辜时间(MTTI),甚至确保没有网络问题。

流分析使您能够发现并可视化特定应用程序的通信流在网络中端点之间的所有路径。它监测整个网络的延迟和缓冲区利用率统计信息。随着 EVPN 和多租户成为大多数现代数据中心的标准解决方案,流分析工具被设计用于对不同 VRF 内覆盖层和底层网络上的 TCP 或 UDP 数据进行采样。

当与 What Just Happened(WJH)ASIC 遥测一起使用时,流量分析变得更加强大。在分析流量时,会显示流量路径中所有交换机的流量相关 WJH 事件,以帮助您发现是否存在导致服务问题的丢包。这两个功能协同工作,最大限度地提高了查明影响应用程序的实际问题的可能性。

打开网易新闻 查看更多图片

图 1. NetQ 流分析仪表板

根据数字

NVIDIA Spectrum-2 或更高版本的交换机支持流分析功能。它还可以为使用不受支持的交换机或运行早期版本的 Cumulus Linux 或 SONiC 的交换机的现有网络部署提供部分路径发现的能力。

流分析基于数据包的四元组或五元组(包括 VXLAN 内部和外部包头)对流量进行采样。其采样周期限制为 10 、15 、20 或 30 分钟。您可以决定是在创建时运行它,还是在创建以后调度执行。

采样率粒度也可配置为低(1:10000)、中(1:1000)、高(1:100)或所有数据包(1:1)。采样率越高,所分析的数据越准确。较高的采样率会导致较高的 CPU 利用率,因此我建议为流量较大的流量设置较低的采样率。

在 NVIDIA Air 亲自体验

NVIDIA Air 是创建数据中心数字孪生的工具。使用 Air ,您可以构建自己的 Cumulus Linux 虚拟数据中心,测试它,使用 NetQ 验证它,探索特性,并学习一些最佳实践。它完全免费使用!

通过在 Air Marketplace 中旋转预构建的 NVIDIA Air Infrastructure Simulation Platform 演示来尝试流量分析。根据指导,了解使用 NetQ 进行流分析可以为您的企业带来的显著好处。

GTC23 演讲、海报和培训实验内容征集现已开放!